多通道深度Q网络
该存储库包括用于参数化动作空间MDP的几种强化学习算法:
P-DQN
MP-DQN
SP-DQN
PA-DDPG 豪
Q-PAMDP
多遍深层Q网络(MP-DQN)通过使用几次遍历(并行批处理)将动作参数输入分配到Q网络来解决P-DQN的过度参数化问题。 拆分深度Q网络(SP-DQN)是一种慢得多的解决方案,它使用具有/不具有共享特征提取层的多个Q网络。 还为P-DQN提供了加权索引的动作参数损失函数。
依存关系
Python 3.5+(已通过3.5和3.6测试)
pytorch 0.4.1(1.0+应该可以,但是会慢一些)
体育馆0.10.5
麻木
点击
域
提供了实验脚本,可通过参数化操作在以下域上运行每种算法:
平台( )
机器人足球进球( )
半场进攻( )
上述OpenAI Gym环境的最简单安装方法如下:
pip in
2022-02-14 10:19:51
63KB
系统开源
1