用于多无人机对抗的多主体强化学习算法
这是“在战斗任务中进行多智能体强化学习的有效培训技术”的源代码,我们构建了源自多个无人驾驶飞机的战斗场景的多智能体对抗环境。 首先,我们考虑使用两种类型的MARL算法来解决这一对抗问题。 一种是从用于多代理设置(MADQN)的经典深度Q网络扩展而来的。 另一个是从最新的多主体强化方法,多主体深度确定性策略梯度(MADDPG)扩展而来。 我们比较了两种方法的初始对抗情况,发现MADDPG的性能优于MADQN。 然后以MADDPG为基准,提出了三种有效的训练技术,即场景转移训练,自学训练和规则耦合训练。
规则耦合红色特工vs随机移动蓝色特工
规则耦合的红色特工和蓝色特工通过自我比赛训练
2021-06-29 16:24:16
5.25MB
系统开源
1