lpc
matlab代码
:mountain:
马尔可夫决策过程的值迭代算法
该存储库的内容作为计算机科学理学硕士课程的学生要求的概率图形模型课程的一项分配项目。
这段代码的版本中提供的所有资源都是从您可以在参考部分找到的类书中获得的。
算法和信息的这种应用仅用于教育目的
描述:
实现值迭代算法以解决离散的马尔可夫决策过程。
教授:
博士
参与的学生:
马里奥·德·洛斯·桑托斯(Mario
De
Los
Santos)。
Github
:。
电子邮件:
指示
下载存储库的文件
验证C
++版本是否至少为C
++
14
调用文档中标记的功能
以下算法基于教授提供的文档。
用作参考的书位于此文件的末尾。
值迭代算法包括根据Bellman方程迭代地估计每个状态s的值。
下图显示了用于创建该项目的伪代码。
Policy迭代算法由基于Bellman方程迭代地估算每个状态s的值组成,主要区别在于我们将Policy存储在每次迭代中,这将使我们可以将迭代(t)与(t-1)进行比较),那么如果政策相同,则我们将完成该过程,这将以存储成本为您带来计算速度上的优势。
图像2显示了用于创建该项目的伪代码。
示例需要调用该类,如
2021-10-07 17:56:24
929KB
系统开源
1