深度强化学习算法
该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。
当前实施
深度Q学习网络(DQN)
基本DQN
双Q网络
决斗网络架构
深度确定性策略梯度(DDPG)
优势演员评判(A2C)
信任区域策略梯度(TRPO)
近端政策优化(PPO)
使用克罗内克因素信任区域(ACKTR)的演员评论家
软演员评论(SAC)
更新信息
:triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
1