深度强化学习代码
当前,这里只有用于分布增强学习的代码。
C51,QR-DQN和IQN的代码与略有。 QUOTA是基于算法作者同的工作而实现的。 我最近注意到,我的DQN代码可能无法获得理想的性能,而其他代码却运行良好。 如果有人可以指出我的代码中的错误,我将不胜感激。
随时进行聊天-如果您想讨论任何事情,请给我发送电子邮件。
依赖关系:
pytorch(> = 1.0.0)
体育馆(= 0.10.9)
麻木
matplotlib
用法:
为了运行我的代码,您需要在主目录下创建两个子目录:./data/model/&./data/plots/。 这两个目录用于存储数据。
当计算机的python环境满足上述依赖性时,您可以运行代码。 例如,输入:
python 3_ iqn . py Breakout
在命令行上运行以在Atari环境中运行算法。 您可以为代码内的算法更改一些特定参数。
训练后,您可以通过使用适当的参数运行result_show.py来绘制结果。
参考文献:
通过深度强化学习(DQN)进行人为控制[] []
强化学习的分布式视角(C51)[] []
1