PILCO软件包V0.9(2013-07-04)
I.简介该软件包实现了PILCO RL策略搜索框架。 该学习框架可以应用于具有连续状态和控制/动作的MDP,并且基于动力学的概率模型和近似贝叶斯推断进行策略评估和改进。
二。 快速入门我们已经实现了/ scenarios中可以找到的一些方案。
如果您想立即开始使用,请转到/ scenarios / cartPole
并执行
cartPole_learn
三, 文档可以在以下位置找到详细的文档
/doc/doc.pdf
其中还包括有关如何设置您自己的方案的描述(只有少数几个文件是特定于方案的)。
IV。 联系如果您发现错误,有疑问或想给我们反馈,请发送电子邮件至
V.参考文献MP Deisenroth和CE Rasmussen:PILCO:一种基于数据的,基于模型的策略搜索方法(ICML 2011)MP Deisenroth:
2022-03-02 14:54:15
1.84MB
MATLAB
1