离散控制Matlab代码马可夫决策过程
马尔可夫决策过程(MDP)是离散的时间随机控制过程。
它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。
MDP对于研究通过动态编程和强化学习解决的优化问题非常有用。
MDP至少早在1950年代就已为人所知;罗纳德·霍华德(Ronald
Howard)于1960年出版的《动态编程和马尔可夫过程》是马尔可夫决策过程研究的核心内容,它们被用于许多领域,包括机器人技术,自动控制,经济学和制造业。
MDP的名称来自俄罗斯数学家Andrey
Markov。
。
算法:
值迭代(Bellman
1957):也称为反向归纳,不使用π函数;
而是在需要时在V(s)内计算π(s)的值。
将π(s)的计算代入V(s)的计算可得出组合步骤。
在下面查看有关如何计算效用的示例(有关更多详细信息,请参见-中的代码)算法:
策略迭代:在策略迭代中(霍华德1960),第一步执行一次,然后重复第二步直到收敛。
然后,再次执行第一步,依此类推。
对于大量可能的状态,策略迭代通常比值迭代慢。
算法
:
注意:在此代码中,我们将不处理该算法(我们将在稍后发
2022-04-12 19:14:58
263KB
系统开源
1