这是论文《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》的pytorch复现,直接使用其开源环境Multi-Agent Particle Environment,运行main.py即可进行运行程序
拨盘 分布式资源分配与Multi-Agent的深强化学习的5G-V2V通信 。 此存储库包含玩具示例的源代码,我们在本文中使用了该示例来测试算法的性能。 抽象的 我们考虑在没有基站的情况下在车对车(V2V)通信中的分布式资源选择问题。 每辆车从共享资源池中自主选择传输资源,以传播合作意识消息(CAM)。 这是每个车辆必须选择唯一资源的共识问题。 当由于移动性而彼此相邻的车辆数量在动态变化时,这个问题变得更具挑战性。 在拥挤的情况下,为每辆车分配唯一资源变得不可行,并且必须开发拥挤的资源分配策略。 5G中的标准化方法,即半永久性调度(SPS)受车辆空间分布造成的影响。 在我们的方法中,我们将其转化为优势。 我们提出了一种使用多主体强化学习(DIRAL)的新颖的DIstributed资源分配机制,该机制建立在唯一的状态表示之上。 一个具有挑战性的问题是应对并发学习代理引入的非平稳性,这会导致多
2021-09-13 11:37:09 8.63MB Python
1
扑克RL 扑克游戏中的多智能体深度强化学习框架。 背景 解决不完善的信息游戏的研究主要围绕直到最近才遍历整个游戏树的方法(例如,请参见 , , )。 神经虚拟自我播放(NFSP) ,后悔策略梯度(RPG) ,深反事实后悔最小化(Deep CFR) 和单深CFR 等新算法最近将深(强化)使用常规方法(例如CFR和虚拟游戏)进行学习,以仅在访问游戏状态的一小部分时即可了解近似的纳什均衡。 PokerRL框架 PokerRL算法的组成部分 您的算法由相互交互的工作人员(绿色)组成。 训练运行的参数通过TrainingProfile的实例( .../rl/base_cls/Training
2021-05-12 11:04:25 325KB framework research reinforcement-learning poker
1