上传者: 38642285
|
上传时间: 2021-06-25 14:28:18
|
文件大小: 339KB
|
文件类型: PDF
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策
略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新
定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最
优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.