DeepGTAV:GTAV的插件,可将其转变为基于视觉的自动驾驶汽车研究环境
1
后视体验重播(HER) 这是的pytorch实现。 致谢: 要求 python = 3.5.2 openai-gym = 0.12.5(支持mujoco200,但您需要使用Gym> = 0.12.5,它在以前的版本中有一个错误。) mujoco-py = 1.50.1.56( 请使用此版本,如果您使用mujoco200,则可能在FetchSlide-v1中失败) pytorch = 1.0.0(如果使用pytorch-0.4.1,则可能会出现数据类型错误。稍后我将对其进行修复。 ) mpi4py 待办事项清单 支持GPU加速-尽管我添加了GPU支持,但是如果您没有强大的计算机,我仍然不建议您使用。 为每个MPI添加多个环境。 添加FetchSlide-v1的图和演示。 指令运行代码 如果要使用GPU,只需添加--cuda标志(不推荐,最好使用CPU) 。 训练FetchR
2022-12-09 18:35:43 5.35MB reinforcement-learning exploration ddpg her
1
在本文中,我们提出了一种深度强化学习方法,以评估虚拟创建的自动驾驶场景的性能。 马尔可夫决策过程用于将车辆状态映射到动作。 折扣和奖励功能也包含在决策策略中。 为了处理导致强化学习的标准不稳定的高维度输入,我们使用了经验重播。 为了进一步降低相关性,我们使用迭代更新来定期更新Q值。 基于随机目标函数的亚当优化器与整流线性单元激活函数一起用作神经网络中的优化器,有助于进一步优化过程。 这款自动驾驶汽车不需要任何带有标签的训练数据即可学习人类的驾驶行为。 受现实情况启发,基于动作的奖励功能用于训练车辆。 在我们的方法中已经证明,经过多次迭代,虚拟制造的车辆会产生无碰撞运动,并执行与人类相同的驾驶行为。
2022-12-09 15:58:08 558KB Reinforcement learning; Markov decision
1
RL飞扬的鸟 概述 该项目是强化学习的基本应用。 它集成了以使用DQN来训练代理。 预训练模型在单个GPU上以3M步进行训练。 您可以找到解释培训过程的,或。 构建项目并运行 该项目支持使用Maven进行构建,您可以使用以下命令进行构建: mvn compile 以下命令将开始在没有图形的情况下进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" 上面的命令将从头开始训练。 您也可以尝试使用预先训练的体重进行训练: mvn exec:java -Dexec.mainClass="com.kingyu.rlbird.ai.TrainBird" -Dexec.args="-p" 要直接使用模型进行测试,您可以执行以下操作 mvn exec:java -Dexec.mainClass="com.ki
2022-11-27 22:41:34 8.43MB java reinforcement-learning deep-learning dqn
1
About some major methods and some basic models in reinforcement learning!
2022-11-23 12:25:44 5.76MB RL
1
OpenSpiel:游戏中强化学习的框架 OpenSpiel是用于一般强化学习和游戏中搜索/计划研究的环境和算法的集合。 OpenSpiel支持n玩家(单人和多人)零和,合作和一般和,单发和顺序,严格的回合和同时移动,完美和不完美的信息游戏,以及传统的多人环境例如(部分和完全可观察的)网格世界和社会困境。 OpenSpiel还包括用于分析学习动态和其他常见评估指标的工具。 游戏被表示为程序扩展形式的游戏,具有一些自然的扩展。 核心API和游戏以C ++实现,并公开给Python。 算法和工具都是用C ++和Python编写的。 swift子目录中还有一个纯Swift分支。 要在Google Colaboratory中尝试OpenSpiel,请参考open_spiel/colabs子目录或从开始。 指数 请在以下选项中选择: 有关核心概念,形式主义和术语的较长介绍,包括算法概述和一些结果,请参阅《 。 有关OpenSpiel的概述以及核心API的示例用法,请参见教程演示幻灯片: 。 如果您在研究中使用OpenSpiel,请使用以下BibTeX引用该论文: @article{
2022-11-17 15:56:03 2.97MB python swift games reinforcement-learning
1
健身搏击 使用OpenAI环境工具包的战舰环境。 基本 制作并初始化环境: import gym import gym_battleship env = gym.make('battleship-v0') env.reset() 获取动作空间和观察空间: ACTION_SPACE = env.action_space.n OBSERVATION_SPACE = env.observation_space.shape[0] 运行一个随机代理: for i in range(10): env.step(env.action_space.sample()) 观察隐藏的游戏状态: print(env.board_generated) 有效动作 有两种输入动作的方法。 第一种方法是按原样输入元组: env = gym.make('battleship-v0') env.reset(
1
2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。 奥图纳 Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。它具有命令式,按运行定义样式的用户API。多亏了我们的运行定义API,用Optuna编写的代码具有高度的模块化,并且Optuna的用户可以动态构造超参数的搜索空间。 还有就是如何使用这个库指南。 Numba 是一种开源JI
1
超级马里奥兄弟的深度强化学习 描述 背景信息:超级马里奥兄弟(SMB)是一款流行的动作游戏,具有“真实的”环境和广阔的状态空间,是设计可玩计算机游戏的强化学习代理的理想平台。 该代理要求与世界上的各种对象和障碍进行交互,以鼓励采用知识丰富的学习方法。 方法-我们使用了OpenAI Gym提供的框架。 超级马里奥兄弟体育馆并从游戏环境中提取了信息,以使用PPO训练RL特工。 我们还向环境引入了预处理方法,例如帧缩放,随机跳帧,帧堆叠和噪声网,以提高代理的性能。 通过引入回滚操作来提高训练的稳定性,可以创建PPO的变体。 结果:该方法成功地训练了能够在20个小时的训练后完成水平的特工。 我们成功实现了一种方法,该方法可以比常规PPO实施更好地执行,在不应用数据预处理的情况下性能提高了50%,在应用数据预处理的情况下性能提高了10%。 工具 Pytorch已被用作主要的机器学习库 由于SMB
2022-11-09 22:52:04 18.11MB reinforcement-learning Python
1
CloudSimPy 数据中心作业调度仿真框架 CloudSimPy 基于离散事件仿真框架 ,利用 Python 语言进行实现; Python 语言的科学计算、深度学习、机器学习生态相较于其他编程语言更加完善,CloudSimPy 可以与具有 Python 支持的深度学习框架(比如 TensorFlow,PyTorch)很好的结合,有助于研究基于机器学习或者深度学习的资源管理方法。 在 CloudSimPy/playground/Non_DAG/algorithm/DeepJS/DRL.py 中的基于深度强化学习的数据中心作业调度算法由 TensorFlow 进行实现,并在其 eager 模式下进行推断和训练。 CloudSimPy 作为数据中心作业调度仿真框架 CloudSimPy 包含两个 Python 包 core 和 playground。 Core core 对数据中心作业调度问
2022-11-02 16:27:31 1.92MB cloud reinforcement-learning schedule datacenter
1