强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码

algorithm deep-learning atari2600 flappy-bird

深度强化学习算法该存储库将使用PyTorch实现经典的深度强化学习算法。该存储库的目的是为人们提供清晰的代码，以供他们学习深度强化学习算法。将来，将添加更多算法，并且还将保留现有代码。当前实施深度Q学习网络（DQN）基本DQN 双Q网络决斗网络架构深度确定性策略梯度（DDPG）优势演员评判（A2C）信任区域策略梯度（TRPO）近端政策优化（PPO）使用克罗内克因素信任区域（ACKTR）的演员评论家软演员评论（SAC）更新信息 :triangular_flag: 2018年10月17日-在此更新中，大多数算法已得到改进，并添加了更多关于图的实验（DPPG除外）。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定，可以得到更好的结果！ :triangular_flag: 2019-07-15-在此更新中，不再需要为openai基准安装。我在rl__utils模块中集成了有用的功能。 DDPG也重新实现，并支持更多结果。自述文件已被修改。代码结构也有微小的调整。 :triangular_flag: 201

文件下载

资源详情

[{"title":"（ 72 个子文件 3.92MB ）强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码","children":[{"title":"reinforcement-learning-algorithms-master","children":[{"title":"figures","children":[{"title":"hopper.gif 1.79MB ","children":null,"spread":false},{"title":"06_sac.png 135.70KB ","children":null,"spread":false},{"title":"04_trpo.png 141.83KB ","children":null,"spread":false},{"title":"01_dqn.png 233.10KB ","children":null,"spread":false},{"title":"05_ppo.png 130.17KB ","children":null,"spread":false},{"title":"03_a2c.png 164.86KB ","children":null,"spread":false},{"title":"breakout.gif 451.78KB ","children":null,"spread":false},{"title":"logo.png 12.62KB ","children":null,"spread":false},{"title":"bipedal.gif 815.07KB ","children":null,"spread":false},{"title":"02_ddpg.png 135.88KB ","children":null,"spread":false}],"spread":true},{"title":"rl_utils","children":[{"title":"mpi_utils","children":[{"title":"utils.py 1.39KB ","children":null,"spread":false},{"title":"__init__.py 0B ","children":null,"spread":false},{"title":"normalizer.py 2.71KB ","children":null,"spread":false}],"spread":true},{"title":"running_filter","children":[{"title":"__init__.py 0B ","children":null,"spread":false},{"title":"running_filter.py 1.67KB ","children":null,"spread":false}],"spread":true},{"title":"logger","children":[{"title":"bench.py 5.57KB ","children":null,"spread":false},{"title":"__init__.py 0B ","children":null,"spread":false},{"title":"logger.py 14.46KB ","children":null,"spread":false},{"title":"plot.py 3.87KB ","children":null,"spread":false}],"spread":true},{"title":"experience_replay","children":[{"title":"experience_replay.py 1.35KB ","children":null,"spread":false}],"spread":true},{"title":"__init__.py 0B ","children":null,"spread":false},{"title":"env_wrapper","children":[{"title":"create_env.py 2.19KB ","children":null,"spread":false},{"title":"atari_wrapper.py 10.09KB ","children":null,"spread":false},{"title":"multi_envs_wrapper.py 3.98KB ","children":null,"spread":false},{"title":"__init__.py 5.74KB ","children":null,"spread":false},{"title":"frame_stack.py 1.13KB ","children":null,"spread":false}],"spread":true},{"title":"seeds","children":[{"title":"seeds.py 407B ","children":null,"spread":false}],"spread":true}],"spread":true},{"title":"rl_algorithms","children":[{"title":"ddpg","children":[{"title":"ddpg_agent.py 8.63KB ","children":null,"spread":false},{"title":"train.py 717B ","children":null,"spread":false},{"title":"arguments.py 2.06KB ","children":null,"spread":false},{"title":"utils.py 686B ","children":null,"spread":false},{"title":"models.py 950B ","children":null,"spread":false},{"title":"demo.py 1.48KB ","children":null,"spread":false},{"title":"README.md 354B ","children":null,"spread":false}],"spread":true},{"title":"dqn_algos","children":[{"title":"train.py 589B ","children":null,"spread":false},{"title":"dqn_agent.py 5.51KB ","children":null,"spread":false},{"title":"arguments.py 2.19KB ","children":null,"spread":false},{"title":"utils.py 1.58KB ","children":null,"spread":false},{"title":"models.py 2.54KB ","children":null,"spread":false},{"title":"demo.py 1.11KB ","children":null,"spread":false},{"title":"README.md 437B ","children":null,"spread":false}],"spread":true},{"title":"ppo","children":[{"title":"train.py 757B ","children":null,"spread":false},{"title":"arguments.py 2.22KB ","children":null,"spread":false},{"title":"utils.py 1.34KB ","children":null,"spread":false},{"title":"models.py 3.82KB ","children":null,"spread":false},{"title":"demo.py 2.58KB ","children":null,"spread":false},{"title":"README.md 754B ","children":null,"spread":false},{"title":"ppo_agent.py 10.88KB ","children":null,"spread":false}],"spread":true},{"title":"a2c","children":[{"title":"a2c_agent.py 6.22KB ","children":null,"spread":false},{"title":"train.py 612B ","children":null,"spread":false},{"title":"arguments.py 1.84KB ","children":null,"spread":false},{"title":"utils.py 749B ","children":null,"spread":false},{"title":"models.py 1.91KB ","children":null,"spread":false},{"title":"demo.py 1.17KB ","children":null,"spread":false},{"title":"README.md 269B ","children":null,"spread":false}],"spread":true},{"title":"sac","children":[{"title":"train.py 450B ","children":null,"spread":false},{"title":"arguments.py 3.01KB ","children":null,"spread":false},{"title":"utils.py 2.77KB ","children":null,"spread":false},{"title":"models.py 1.70KB ","children":null,"spread":false},{"title":"sac_agent.py 10.62KB ","children":null,"spread":false},{"title":"demo.py 1.40KB ","children":null,"spread":false},{"title":"README.md 268B ","children":null,"spread":false}],"spread":true},{"title":"trpo","children":[{"title":"train.py 461B ","children":null,"spread":false},{"title":"arguments.py 1.49KB ","children":null,"spread":false},{"title":"utils.py 1.98KB ","children":null,"spread":false},{"title":"models.py 1.34KB ","children":null,"spread":false},{"title":"demo.py 1.35KB ","children":null,"spread":false},{"title":"README.md 261B ","children":null,"spread":false},{"title":"trpo_agent.py 9.08KB ","children":null,"spread":false}],"spread":true}],"spread":true},{"title":"setup.py 275B ","children":null,"spread":false},{"title":"README.md 5.96KB ","children":null,"spread":false},{"title":".gitignore 1.25KB ","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。 （更多算法仍在进行中）-源码

文件下载

资源详情

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载

强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码