cart算法代码matlab
PILCO-学习控制的概率推断
这是使用Tensorflow和GPflow在Python中(最初用MATLAB编写)的重新实现。
这项工作主要是为了个人发展而进行的,部分实施是基于此。
该存储库将主要作为我未来研究的基准。
我使用和实现了购物车杆基准测试。
我之所以这样做,是因为OpenAI的CartPole环境没有连续的动作空间,并且因为它使用了“倒置”的推车杆。
新环境代表了具有连续动作空间的传统手推车基准测试。
该文件包含基于的新的CartPole类。
我还创建了定义传统手推车杆的MuJoCo环境的文件。
先决条件
该示例需要(具有接触的多关节动力学)物理引擎,才能使用倒立摆。
我相信有免费的学生许可证。
正在安装
使用pip
install
-r
requirements
。
确保使用Python
3。
您可能要为此使用虚拟环境。
例子
给出了在购物车杆环境中实现该代码的示例,该示例可在中找到。
建于
作者
艾丹·斯堪内尔
执照
此项目已获得MIT许可证的许可-有关详细信息,请参见文件。
致谢
原始执行:
MP
Deisenroth,D.Fox和C
2021-12-09 16:32:44
19KB
系统开源
1