DRLND-project-2
该存储库包含项目2的实现。
项目详情
到达者
该项目实现了PPO,用于解决Unity环境中的连续控制问题-使机械臂跟随旋转的航点-在具有20个代理的变体版本上。
最终执行记录:
当手臂末端位于目标球体内/目标航路点的固定范围内时,每个代理随时间累积的奖励。 代理的目标是遵循路标。
对于每个代理,状态空间具有33个维度,而动作空间具有4个连续维度。
该任务是情节性的,当特工在100个连续情节中获得+30的平均分数时,该任务被认为已解决。
履带式
该项目的可选/额外/挑战部分是控制爬虫。
在面对正确方向和该方向的速度时,每个四脚实体尝试遵循目标目标时,每个代理随时间累积的奖励。
该环境具有12个代理,每个代理以129维观察状态,并以20维控制动作。
该环境基于。
入门
依存关系
可以根据依赖关系来设置此项目的依赖关系。 以下说明将引导您逐步设置该
1