该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
强化学习——OpenAI Gym——环境理解和显示 本文以CartPole为例。 新建Python文件,输入 import gym env = gym.make("CartPole-v0") # 定义使用gym库中的环境:CartPole env = env.unwrapped # 打开包装 # 以上两句可换成 env = gym.make('CartPole-v0').unwrapped print(env.action_space) # 动作空间,输出的内容看不懂 print(en
2021-12-12 17:25:02 39KB AI 化学 学习
1
要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1:车杆 介绍 在此任务中,我们必须在购物车顶部平衡一根杆。 动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车 我在大约60集中使用DQN解决了这个问题。 以下是得分与情节的关系图。 项目2:山地车 介绍 在此任务中,我们必须教车达到山顶处的目标位置。 操作空间的数量为3。在这种环境下,操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车 我在大约15集中使用DQN解决了此问题。 以下是得分与情节的关系图。 项目3:Pendulam 介绍 在此任务中,我们必须平衡摆锤的颠倒状态。 作用空间的数量为1,这是施加在关节上的扭矩。 动作空间在这里是连续的。 0扭矩[-2,2] 我在大约100集中使用DDPG解决了这个问题。 以下是得分与情节的
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
OpenAI 成功训练了一个能够从文本标题生成图像的网络。 它与 GPT-3 和 Image GPT 非常相似,并产生了惊人的结果。
2021-11-25 20:02:04 9.13MB ai ieee论文 代码 复现
MPE-多主体强化学习算法 MPE 这是使用OpenAI Multi-Agent RL的简单验证实验代码。 该环境总结了许多基准,并最初为算法做准备。 由于环境设置简单, MPE似乎是验证我们新的Multi-Agent RL算法并与其他基准进行比较的良好玩具实验环境。 我为您编写了一些著名的多主体RL算法,以便您可以更改较少的代码来实现自己的算法并验证实验结果。 笔记: 如果要成功运行此MPE环境,则必须确保已下载 。 但是,我已经将基准的文件推送到项目中,如果您发现从OpenAI下载的基准有任何问题,则可以使用我的文件。 要求 Python> = 3.6.0 PyTorch == 1.2.0 OpenAI体育馆== 0.10.5 演算法 待办事项清单 评估和渲染 数字与比较 上传训练模型.pt 致谢 我一直以硕士生的身份学习。 我的代码和对算法的理解可能存在一些问
2021-11-23 10:03:43 3.62MB Python
1
PPO-Keras Keras实施PPO解决OpenAI体育馆环境
2021-11-14 18:28:22 4KB Python
1
安装openAI的gym进行强化学习时,经常会遇到需要安装Box2D的情况,本资源为其Linux(Ubuntu)下的源码安装包。
2021-11-08 22:48:58 1.39MB gym pyBox2D 源码安装
1
OpenAI体育馆的飞扬的小鸟 该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。 它基于的 。 当前,环境为代理提供以下观察参数: 鸟的y位置; 鸟的垂直速度; 到下一个管道的水平距离; 下一个管道的y位置。 将来,我还打算实现一个环境版本,该版本将提供代表游戏屏幕的图像作为观察结果。 安装 要安装flappy-bird-gym ,只需运行以下命令: $ pip install flappy-bird-gym 用法 像在其他gym环境中一样,使用flappy-bird-gym非常容易。 只需导入包并使用make函数创建环境。 看下面的示例代码: import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while
1