著名的强化学习算法 Proximal Policy Optimization 的另一种自定义实现,也称为 PPO
2022-05-11 09:04:05 25KB 算法 源码软件
基于李宏毅课程总结
2022-05-06 10:35:16 599KB PPO RL 强化学习
1
基于李宏毅的课程
2022-05-06 10:33:19 1.05MB PPO RL
1
代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
2022-03-30 18:59:56 3.23MB DQN PPO DDPG TRPO
1
PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
1
强化学习的算法主要分为两大类: 基于值的算法(Value-Based) 和 基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法,然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法,也包括《RND》这篇论文中使用的PPO算法。
2022-01-19 11:02:59 8.81MB 强化学习 ppo 强化学习算法 ActorCritic
1
内含原文(.pdf)加中文详细解读解读(.doc),主要是对openai与deepmind的算法,进行完全解读(中文版),简单易懂
2022-01-15 23:58:08 350KB TRPO PPO
1
RL拟人化小球化剂(PPO) 说明即将推出...
2021-12-28 11:03:35 1.1MB Python
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–256,1992年。 影评人:理查德·萨顿(Richard S Sutton),大卫·麦卡莱斯特(David A McAllester),萨特德·辛格(Satinder P Singh)和伊谢·曼苏(Yishay Mansour)。 通过函数逼近进行强化学习的策略梯度方法。 在《神经信息处理系统的进步
2021-11-29 19:50:58 15KB Python
1