PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–256,1992年。 影评人:理查德·萨顿(Richard S Sutton),大卫·麦卡莱斯特(David A McAllester),萨特德·辛格(Satinder P Singh)和伊谢·曼苏(Yishay Mansour)。 通过函数逼近进行强化学习的策略梯度方法。 在《神经信息处理系统的进步
2021-11-29 19:50:58 15KB Python
1
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn
1
根据OpenAI 提供的伪代码,PPO算法中的第一步。 受的简单实现启发,通过使用Actor和Critic网络创建轨迹
2021-11-18 19:27:45 35KB Python
1
PPO-Keras Keras实施PPO解决OpenAI体育馆环境
2021-11-14 18:28:22 4KB Python
1
pytorch-lunarlander:在月球着陆器中,实现ppo算法
2021-11-04 20:26:22 5KB Python
1
世界模型LunarLanderContinuous-v2-with-PPO
2021-10-28 09:22:45 42KB Python
1
李宏毅强化学习ppo算法ppt
2021-10-09 10:43:55 874KB ppo
1
可读,可重用,可扩展 Machin是为pytorch设计的增强库。 支持的型号 任何事物,包括循环网络。 支持的算法 当前,Machin已实现以下算法,该列表仍在增长: 单代理算法: 多主体算法: 大规模并行算法: 增强功能: 支持的算法: 进化策略 基于模型的方法 特征 1.可读 与其他强化学习库(例如著名的 , 和。 Machin尝试仅提供RL算法的简单明了的实现。 Machin中的所有算法均以最小的抽象设计,并具有非常详细的文档以及各种有用的教程。 2.可重复使用 Machin采用与pytorch类似的方法,将算法和数据结构封装在自己的类中。 用户无需设置一系列data collectors , trainers , runners , samplers ...即可使用它们,只需导入即可。 模型上的唯一限制是它们的输入/输出格式,但是,这些限制很小,可以轻松地使算法适
2021-09-17 19:09:16 1.54MB python reinforcement-learning deep-learning gae
1