多代理SAC 介绍 环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最高分后,连续100次以上)。 具体来说, 在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个代理商的得分。 这将产生2个(可能不同)的分数。 然后,我们取这两个分数中的最大值。 这为每个情节产生一个单一的分数。 当这些分数的平均值(超过100集)至少为+0.5时,就认为环境已解决。
1
城流 CityFlow 是一种用于大规模城市交通场景的多智能体强化学习环境。 检查这些功能! 一种微观交通模拟器,可模拟每辆车的行为,提供最高级别的交通演变细节。 支持灵活定义路网和交通流 为强化学习提供友好的python接口 快速地! 精心设计的数据结构和多线程仿真算法。 能够模拟城市范围内的交通。 请参阅与 SUMO 的性能比较。 具有不同线程数(1、2、4、8)和 SUMO 的 CityFlow 之间的性能比较。 从小型 1x1 网格路网到城市级 30x30 路网。 当您需要通过 python API 与模拟器交互时,速度会更快。 截屏 使用 CityFlow 的特色研究和项目 链接 WWW 2019 演示文稿 主页 文档和快速入门 码头工人 [1] 相扑首页 [2] 天让智能首页
1
用于多无人机对抗的多主体强化学习算法 这是“在战斗任务中进行多智能体强化学习的有效培训技术”的源代码,我们构建了源自多个无人驾驶飞机的战斗场景的多智能体对抗环境。 首先,我们考虑使用两种类型的MARL算法来解决这一对抗问题。 一种是从用于多代理设置(MADQN)的经典深度Q网络扩展而来的。 另一个是从最新的多主体强化方法,多主体深度确定性策略梯度(MADDPG)扩展而来。 我们比较了两种方法的初始对抗情况,发现MADDPG的性能优于MADQN。 然后以MADDPG为基准,提出了三种有效的训练技术,即场景转移训练,自学训练和规则耦合训练。 规则耦合红色特工vs随机移动蓝色特工 规则耦合的红色特工和蓝色特工通过自我比赛训练
2021-06-29 16:24:16 5.25MB 系统开源
1