带有MADDPG的网球：在Pytorch上实现MADDPG-源码

reinforcement-learning robotics tennis agents

项目3：合作与竞争介绍在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。下图显示了最终的奖励进度。环境在1820集中得到解决算法：为了解决此环境，我实现了Multi-DDPG算法。实现的功能如下：每个特工都有独立的演员和评论家集中培训：每个代理的批评者不仅将自己的演员的行为和状态作为输入，而且还将所有其他代理的状态和行为作为输入。由于在测试过程中仅使用参与者，并且参与者仅取决于相应参与者的状态，因此代理可以自由地学习自己的奖励结构。下图[来源：：

文件下载

评论信息

weixin_43860323 :

用户下载后在一定时间内未进行评价，系统默认好评。
2021-08-16
weixin_43740004 :

大佬，能不能解释的更清楚一点
2021-04-01
qq_40089637 :

太棒了找MADDPG算法的应用实在是太难了谢谢谢谢先去学习下
2021-02-24

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

带有MADDPG的网球：在Pytorch上实现MADDPG-源码

文件下载

评论信息

其他资源

免责申明

个人信息

热门下载

最新下载