POMDP是增强学习的基础,很少见的讲解POMDP的讲义,详细并且清晰,是学习POMDP非常好的参考资料,深入浅出,值得拥有。
2021-04-08 10:37:22 2.18MB 马尔科夫决策过程 强化学习
1
不确定环境下动态规划求解问题相关研究文献综述
2019-12-21 21:28:55 30KB POMDP
1
针对智能水下机器人(AUV)软件故障修复过程中存在的修复代价过高和系统环境只有部分可观察的问题,提出了一种基于微重启技术和部分客观马尔可夫决策(POMDP)模型的AUV软件故障修复方法。该方法结合AUV软件系统分层结构特点,构建了基于微重启的三层重启结构,便于细粒度的自修复微重启策略的实施;并依据部分可观马尔可夫决策过程理论,给出AUV软件自修复POMDP模型,同时采用基于点的值迭代(PBVI)算法求解生成修复策略,以最小化累积修复代价为目标,使系统在部分可观环境下能够以较低的修复代价执行修复动作。仿真实验结果表明,基于微重启技术和POMDP模型的AUV软件故障修复方法能够解决由软件老化及系统调用引起的AUV软件故障,同与两层微重启策略和三层微重启固定策略相比,该方法在累积故障修复时间和运行稳定性上明显更优。
2019-12-21 20:00:38 810KB POMDP
1