著名的强化学习算法 Proximal Policy Optimization 的另一种自定义实现,也称为 PPO
所有代码都是用Python 3编写的,并使用OpenAI Gym的RL环境。高级技术使用Tensorflow实现神经网络。 This repository provides code, exercises and solutions for popular Reinforcement Learning algorithms. These are meant to serve as a learning tool to complement the theoretical materials from Reinforcement Learning: An Introduction (2nd Edition) David Silver's Reinforcement Learning Course Each folder in corresponds to one or more chapters of the above textbook and/or course. In addition to exercises and solution, each folder als
概述 这是pytorch中基于模型的RL算法MBPO的重新实现,如下文所述:。 该代码基于的使用张量流集成模型重现了结果,但使用pytorch集成模型却表现出明显的性能下降。 这段代码使用pytorch重新实现了集成动力学模型,并缩小了差距。 转载结果 比较是在两个任务上完成的,而其他任务没有经过测试。 但是在经过测试的两个任务上,与官方的tensorflow代码相比,pytorch实现获得了类似的性能。 依存关系 MuJoCo 1.5和MuJoCo 2.0 用法 python main_mbpo.py --env_name'Walker2d-v2'--num_epoch 300 --model_type'pytorch' python main_mbpo.py --env_name'Hopper-v2'--num_epoch 300 --model_type'pytorch' 参考
基于Jupyter Notebook与python的深度强化学习算法Deep Q Learning
基于Jupyter Notebook与python的深度强化学习算法Double DQN Solution
基于python的深度强化学习算法Deep Q Learning实现
吃豆子RL 应用于 Pacman 游戏的强化学习算法。 Pacman 游戏是为 Udacity 类 ud820的结果。 可以在qlearningAgents.py文件中找到学习器。 跑步 python pacman.py -p PacmanQAgent -x 800 -n 810 -l smallGrid -l参数可以更改为使用其他地图(在布局文件夹中可用)。 -p参数可以更改为使用其他类型的 q-learner。 -x设置训练示例的数量。 -n设置示例总数(训练 + 测试) 学习者 PacmanQAgent:基本的 Q 学习代理。 它使用完整状态(整个地图),因此在使用大地图时不会缩放。 运行: python pacman.py -g DirectionalGhost -p PacmanQAgent -x 800 -n 810 -l smallGrid Approxi
里面是我自己的强化学习笔记。参考自刘建平老师的强化学习博客,再加上自己的理解,通俗易懂。里面包含了强化学习model-free的经典论文(Q-learning、SARSA、TD(lambda)、DQN、DDQN、prioritized replay DQN、Dueling DQN、policy gradient、AC、A2C、A3C、DDPG、TD3、TRPO、PPO),能帮助你快速入门强化学习。除了有算法的公式,还有我自己的理解,以及要理解算法所需要的一些基础知识,算法的流程图,都写在了里面,绝对生动形象,通俗易懂。
