Lunar_project gym.openai.com/envs/LunarLander-v2的解决方案 演示开始 pip install gym pip install box2d pip install tensorflow pip install keras git clone https://github.com/sunny3/Lunar_project cd Lunar_project python demonstration.py examples.py默认运行一个13集的长内存模型。 如果要切换到短短的2集,则应运行 python demonstration.py --mode short 在笔记本电脑的木星文件中介绍了使用代理类和详细注释训练网络(内存不足)的过程,还提供了图形和启动1集动画的功能 所有基本课程注释也都显示在木星笔记本文件中
2023-02-21 16:00:20 178KB JupyterNotebook
1
使用OpenAI Gym和TensorFlow结合广泛的数学知识来掌握经典RL,深度RL,分布式RL,逆RL等 关于这本书 近年来,随着算法质量和数量的显着提高,《 Python上的动手强化学习》第二版已完全改编为示例丰富的指南,用于学习最新的强化学习(RL)和使用TensorFlow和OpenAI Gym工具包的深度RL算法。 除了探索RL基础知识和基本概念(例如Bellman方程,Markov决策过程和动态规划)之外,第二版还深入探讨了基于价值,基于策略和批评演员的RL方法的全过程,并提供了详细的数学知识。 它深入探索了最新的算法,例如DQN,TRPO,PPO和ACKTR,DDPG,TD3和SAC,从而使基础数学神秘化并通过简单的代码示例演示了实现。 本书有几章专门介绍新的RL技术,包括分布式RL,模仿学习,逆RL和元RL。 您将学习如何利用OpenAI基准库的改进“稳定基准”轻
1
Rex:一个开源的四足机器人 该项目的目标是训练一个开源3D打印四足机器人,探索Reinforcement Learning和OpenAI Gym 。 目的是让机器人学习模拟中的家务和一般任务,然后在不进行任何其他手动调整的情况下,在真实机器人上成功地传递知识( Control Policies )。 该项目的主要灵感来自波士顿动力公司所做的令人难以置信的工作。 相关资料库 一个CLI应用程序,用于引导和控制Rex运行经过训练的Control Policies 。 cloud-用于在云上训练Rex的CLI应用程序。 Rex-Gym:OpenAI Gym环境和工具 该存储库包含用于训练Rex的OpenAI Gym Environments集合,Rex URDF模型,学习代理实现(PPO)和一些脚本,以开始训练课程并可视化学习到的Control Polices 。 此CLI应用程序允许批量培训,策略重现和单个培训呈现的会话。 安装 创建一个Python 3.7虚拟环境,例如使用Anaconda conda create -n rex python=3.7 anaconda cond
2023-01-14 16:48:56 117.44MB machine-learning reinforcement-learning robot robotics
1
健身房 训练USV导航的环境。 安装 cd gym-usv pip install -e . 关于:A. Gonzalez-Garcia和H.Castañeda,“无人水面车辆的建模,识别和控制”,AUVSI XPONENTIAL 2019:万物无人,2019。 上的路径跟踪控制:A.冈萨雷斯-加西亚,H卡斯塔涅达和L.加里多,“USV路径跟踪基于控制的深强化学习和自适应控制,”全球海洋2020,2020。
2022-12-07 19:02:41 39KB Python
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
用pytorch在Gym的游戏中实现Deep-Q-network深度强化学习,实时查看训练效果。 非常适合新手入门学习!!!
2022-11-04 15:05:55 242KB 强化学习
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
gym-master官方文件
2022-05-31 09:04:17 837KB github
1
使用gym环境时报错:AttributeError: module ‘gym.envs.box2d’ has no attribute ‘BipedalWalker’,则需要下载Box2D库,详情可参见博客:https://blog.csdn.net/qq_43010516/article/details/124801637
2022-05-16 21:05:41 1.18MB 源码软件 python 开发语言
1