多点路径规划指标机器人强化学习
增强学习已成为研究和研究的热门话题,该领域的许多领域都未曾动过。
这些领域之一是在物理机器人上实施强化学习算法。
我探索了在物理定制3D打印机器人Benny和Bunny上实现RL算法的过程,从A到B。这个项目是我本科生最后一年学习自学选修课的一部分,目的是学习强化学习(RL)的基础知识。
最初,编码直接发生在物理机器人上,但是在项目进行到一半时,很明显项目的算法和硬件需要去耦;
很难确定问题出在硬件还是RL算法中。
在RL算法中进行的仿真测试表明,在较小的状态空间(<=
100个状态)中,结果令人鼓舞,但是一旦问题扩展到包含400个状态的远期奖励,则对于所探索的RL算法中的任何一个都无法收敛。
从仿真结果来看,在硬件上实现可行之前,需要在仿真中探索更强大的算法。
模拟
所有的代码都是用C
++编写的,没有框架或外部库。
这样做有两个原因:
我想要的代码既可以用于模拟训练,也可以用于完全在机器人上完成的训练,而无需进行数据传输。
之所以需要这种可移植性,是因为机器人使用的CPU和内存有限的微控制器,而增加数据传输将为系统增加更多的复杂性。
使用Tensor
2021-10-08 18:25:23
440KB
系统开源
1