python库,解压后可用。 资源全名:robo_gym-0.1.0-py3-none-any.whl
2022-02-21 09:17:32 15KB python 开发语言 后端 Python库
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
gym中集成的atari游戏可用于DQN训练,但是操作还不够方便,于是baseline中专门对gym的环境重写,以更好地适应dqn的训练      从源码中可以看出,只需要重写两个函数 reset()和step() ,由于render()没有被重写,所以画面就没有被显示出来了 1.NoopResetEnv()函数,功能:前30帧画面什么都不做,跳过。这有利于增加初始画面的随机性,不容易陷入过拟合 class NoopResetEnv(gym.Wrapper): def __init__(self, env, noop_max=30): Sample initial
2021-12-31 10:35:23 77KB ar AS base
1
自动驾驶中的深度强化学习 最适合离散操作:4名工人,学习率1e-4 无法使其在连续动作空间中正常工作; 它产生的动作出了问题 A3C创意 总览 人工神经网络的架构
2021-12-27 23:11:40 224.81MB python multi-threading deep-neural-networks latex
1
健身室 Gym-JSBSim使用JSBSim飞行动力学模型为固定翼飞机的控制提供了强化学习环境。 Gym-JSBSim需要类似Unix的操作系统和Python 3.6。 软件包的环境实现了OpenAI Gym界面,允许以通常的方式创建环境并与之交互,例如: import gym import gym_jsbsim env = gym.make(ENV_ID) env.reset() state, reward, done, info = env.step(action) Gym-JSBSim可选地使用FlightGear仿真器提供受控飞机的3D可视化。 依存关系 飞行动力学模型,包括C ++和Python库 FlightGear模拟器(可视化的可选) 健身房,numpy,matplotlib 安装 首先,按照信息库上的说明安装JSBSim及其库。 确认从终端安装了JSBSim:
2021-12-15 18:40:13 51KB Python
1
强化学习——OpenAI Gym——环境理解和显示 本文以CartPole为例。 新建Python文件,输入 import gym env = gym.make("CartPole-v0") # 定义使用gym库中的环境:CartPole env = env.unwrapped # 打开包装 # 以上两句可换成 env = gym.make('CartPole-v0').unwrapped print(env.action_space) # 动作空间,输出的内容看不懂 print(en
2021-12-12 17:25:02 39KB AI 化学 学习
1
要求 python - 3.7 keras - 2.4.3 tensorflow - 2.2.0 项目1:车杆 介绍 在此任务中,我们必须在购物车顶部平衡一根杆。 动作空间的数量为2。此处动作空间是离散的。 0向左移动购物车 1向右移动购物车 我在大约60集中使用DQN解决了这个问题。 以下是得分与情节的关系图。 项目2:山地车 介绍 在此任务中,我们必须教车达到山顶处的目标位置。 操作空间的数量为3。在这种环境下,操作空间是离散的。 0向左移动汽车 1什么也不做 2向右移动汽车 我在大约15集中使用DQN解决了此问题。 以下是得分与情节的关系图。 项目3:Pendulam 介绍 在此任务中,我们必须平衡摆锤的颠倒状态。 作用空间的数量为1,这是施加在关节上的扭矩。 动作空间在这里是连续的。 0扭矩[-2,2] 我在大约100集中使用DDPG解决了这个问题。 以下是得分与情节的
1
rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1