使用OpenAI Gym和TensorFlow结合广泛的数学知识来掌握经典RL,深度RL,分布式RL,逆RL等 关于这本书 近年来,随着算法质量和数量的显着提高,《 Python上的动手强化学习》第二版已完全改编为示例丰富的指南,用于学习最新的强化学习(RL)和使用TensorFlow和OpenAI Gym工具包的深度RL算法。 除了探索RL基础知识和基本概念(例如Bellman方程,Markov决策过程和动态规划)之外,第二版还深入探讨了基于价值,基于策略和批评演员的RL方法的全过程,并提供了详细的数学知识。 它深入探索了最新的算法,例如DQN,TRPO,PPO和ACKTR,DDPG,TD3和SAC,从而使基础数学神秘化并通过简单的代码示例演示了实现。 本书有几章专门介绍新的RL技术,包括分布式RL,模仿学习,逆RL和元RL。 您将学习如何利用OpenAI基准库的改进“稳定基准”轻
1
Rex:一个开源的四足机器人 该项目的目标是训练一个开源3D打印四足机器人,探索Reinforcement Learning和OpenAI Gym 。 目的是让机器人学习模拟中的家务和一般任务,然后在不进行任何其他手动调整的情况下,在真实机器人上成功地传递知识( Control Policies )。 该项目的主要灵感来自波士顿动力公司所做的令人难以置信的工作。 相关资料库 一个CLI应用程序,用于引导和控制Rex运行经过训练的Control Policies 。 cloud-用于在云上训练Rex的CLI应用程序。 Rex-Gym:OpenAI Gym环境和工具 该存储库包含用于训练Rex的OpenAI Gym Environments集合,Rex URDF模型,学习代理实现(PPO)和一些脚本,以开始训练课程并可视化学习到的Control Polices 。 此CLI应用程序允许批量培训,策略重现和单个培训呈现的会话。 安装 创建一个Python 3.7虚拟环境,例如使用Anaconda conda create -n rex python=3.7 anaconda cond
2023-01-14 16:48:56 117.44MB machine-learning reinforcement-learning robot robotics
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
健身房 基于OpenAI Gym的多代理环境的集合。 安装 使用PyPI: pip install ma-gym 直接从来源: git clone https://github.com/koulanurag/ma-gym.git cd ma-gym pip install -e . 参考: 如果您想引用它,请使用此bibtex: @misc{magym, author = {Koul, Anurag}, title = {ma-gym: Collection of multi-agent environments based on OpenAI gym.}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublish
1
AIgym_Acrobat_Q_learning:通过openAi Gym在Acrobat-v01上进行einforcmend学习
2022-03-26 23:46:36 4KB Python
1
Breakout-RL:使用带有CNN的DQN解决OpenAI Gym Env突破
2022-02-24 16:30:50 5KB JupyterNotebook
1
DRQN-张量流 使用Tensorflow,openai / gym和openai / retro进行深度递归Q学习 该存储库包含用于在 Atari和环境上训练DQN或DRQN的代码。 请注意,到目前为止,在Retro环境中的训练都是完全实验性的,必须包装这些环境以将动作空间减少到每个游戏所有动作的更合理的子空间。 当前实现的包装仅对SEGA Sonic环境有意义。 安装 您可以通过发出以下命令来安装所有依赖项: pip install -r requirements.txt 这将在没有GPU支持的情况下安装Tensorflow。 但是,我强烈建议使用带有GPU支持的Tensorflow,否则培训将花费很长时间。 有关此主题的更多信息,请参见 。 为了运行复古环境,您必须收集要玩的游戏的rom并将其导入: : 跑步 您可以通过以下方式开始培训: python main.py --
2022-02-24 09:40:53 63.17MB tensorflow retro openai-gym dqn
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1