rl迷宫 OpenAI体育馆中用于强化学习解决方案的迷宫环境
2021-12-05 15:26:59 18KB JupyterNotebook
1
PPO-RND 通过在 Tensorflow 2 和 Pytorch 中使用近端策略优化和随机网络蒸馏来演示深度强化学习的简单代码 版本 2 和其他进展 版本 2 将带来代码质量和性能的改进。 我重构了代码,以便它遵循 OpenAI 基线上 PPO 实现中的算法。 我还使用了称为 Truly PPO 的更新版本的 PPO,它比 OpenAI 的 PPO 具有更高的样本效率和性能。 目前,我专注于如何在更困难的环境(Atari 游戏、MuJoCo 等)中实施这个项目。 使用 Pytorch 和 Tensorflow 2 清理代码 使用真正的 PPO 添加更复杂的环境 添加更多说明 入门 该项目使用 Pytorch 和 Tensorflow 2 作为深度学习框架,使用 Gym 作为强化学习环境。 虽然不是必需的,但我建议在具有 GPU 和 8 GB 内存的 PC 上运行此项目 先决
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1
fastlane 快车道Fastfile脚本gym文件编写套用 自动打包ipa 上传蒲公英/App Store
2021-11-09 14:23:25 531KB Ruby开发-其它杂项
1
安装openAI的gym进行强化学习时,经常会遇到需要安装Box2D的情况,本资源为其Linux(Ubuntu)下的源码安装包。
2021-11-08 22:48:58 1.39MB gym pyBox2D 源码安装
1
安装方法:Anaconda3自带的conda prompt下面,输入"pip install + 各个whl文件或tar.gz“文件的完整路径名,或输入pip install之后,将文件拖至conda prompt即可。注意各whl有安装顺序要求,一试便知。 Keras为最新的2.1.3版,强化学习资源GYM为最新的0.9.4版 Win10用户需要以管理员运行conda prompt
2021-11-04 20:53:57 79.22MB tensorflow keras gym离线安装
1
OpenAI体育馆的飞扬的小鸟 该存储库包含用于Flappy Bird游戏的OpenAI Gym环境的实现。 它基于的 。 当前,环境为代理提供以下观察参数: 鸟的y位置; 鸟的垂直速度; 到下一个管道的水平距离; 下一个管道的y位置。 将来,我还打算实现一个环境版本,该版本将提供代表游戏屏幕的图像作为观察结果。 安装 要安装flappy-bird-gym ,只需运行以下命令: $ pip install flappy-bird-gym 用法 像在其他gym环境中一样,使用flappy-bird-gym非常容易。 只需导入包并使用make函数创建环境。 看下面的示例代码: import time import flappy_bird_gym env = flappy_bird_gym.make("FlappyBird-v0") obs = env.reset() while
1
Gym-Duckietown 于OpenAI Gym的自动驾驶汽车模拟器环境。 如果要在出版物中引用此存储库,请使用此bibtex: @misc{gym_duckietown, author = {Chevalier-Boisvert, Maxime and Golemo, Florian and Cao, Yanjun and Mehta, Bhairav and Paull, Liam}, title = {Duckietown Environments for OpenAI Gym}, year = {2018}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/duckietown/gym-duckietown}},
2021-10-28 17:10:43 8.88MB simulator reinforcement-learning robot openai-gym
1
pytorch-LunarLander OpenAI Gym中针对LunarLander-v2环境的不同Deep RL算法的PyTorch实现 我们实施了3种不同的RL算法来解决LunarLander-v2环境: 模仿学习 加强 优势-演员-批评(A2C) 注意:模仿学习是在Keras中实现的,另外两种算法是在PyTorch中实现的 指示: 安装所有依赖项 克隆仓库 运行以下命令: 3.1)python imitation.py 3.2)python reinforce.py 3.3)python a2c.py
2021-10-26 18:58:14 14KB Python
1
1-grid-world,2-cartpole,3-atari 强化学习入门案例。
2021-09-28 15:48:00 65.23MB python gym
1