D4RL:用于深度数据驱动的强化学习的数据集 D4RL是用于离线强化学习的开源基准。它为培训和基准测试算法提供了标准化的环境和数据集。还提供了补充和。 设置 可以通过以下方式克隆存储库来安装D4RL: git clone https://github.com/rail-berkeley/d4rl.git cd d4rl pip install -e . 或者,或者: pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl 控制环境需要MuJoCo作为依赖项。您可能需要获取并按照mujoco_py的设置说明进行操作。这主要涉及将密钥复制到您的MuJoCo安装文件夹。 Flow和CARLA任务还需要其他安装步骤: 可以在找到安装CARLA的说明 有关安装Flow的说明,请参见。确保使用SUMO模拟器进行
2022-01-21 10:36:50 25.24MB Python
1
强化学习简介——介绍强化学习的应用及理论 包含视频
2022-01-20 17:12:12 13.32MB RL 强化学习 Q-learning Q学习
1
从头开始训练机器人手臂 :建立培训框架 :学习从头开始构建环境 :完成基本的环境脚本,看看手臂如何运动 :插入强化学习方法并尝试对其进行培训 :优化和调试 :制定目标 依存关系 Python 张量流 g 麻木 此强化学习练习代码​​的中文教程为 。 您可以在上查看更多教程,或在了解有关我的更多信息。
1
强化学习的算法主要分为两大类: 基于值的算法(Value-Based) 和 基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法,然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法,也包括《RND》这篇论文中使用的PPO算法。
2022-01-19 11:02:59 8.81MB 强化学习 ppo 强化学习算法 ActorCritic
1
基于深度强化学习的编队控制使用MADDPG算法
2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队
1
基于pytorch的强化学习倒立摆代码,直接运行可出来倒立摆的训练动画
2022-01-18 13:17:21 6KB 倒立摆 强化学习 深度学习
建立了四分之一半主动悬架和被动悬架,其次选取车身加速度、悬架动挠度和轮胎变形为评价指标,建立了最优控制器,最后在 matalb 中进行了仿真验证
2022-01-17 15:23:29 442KB 轮胎 车身 半主动悬架 最优控制
1
SimpleDS 一个简单的深度强化学习对话系统 描述 SimpleDS是用于通过深度强化学习来训练面向任务的对话系统的计算框架。 与其他对话系统相比,此系统直接从上一个系统的原始(嘈杂的)文本或单词嵌入以及用户响应中直接选择对话动作-正在进行的原始音频的支持。 这样做的动机是在尽可能少的人工干预下训练对话代理。 该系统在客户端-服务器架构下运行,其中学习代理(在JavaScript中)充当“客户端”,而环境(在Java中)充当“服务器”。 它们通过交换消息进行通信,客户端告诉客户端要执行的操作,服务器告诉客户端可用的操作,环境状态和观察到的奖励。 SimpleDS是顶部的(口语)对话系统通过约束搜索空间的多线程和客户端-服务器处理的支持,以及快速学习。 该系统已经通过使用Google语音识别器的模拟对话和真实对话进行了测试。 它也已经用三种不同的语言进行了测试:英语,德语和西班牙语
2022-01-15 17:55:21 11.44MB 系统开源
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
Udacity深度强化学习纳米学位-项目3:合作与竞争 介绍 对于这个Udacity项目,我使用了一个DDPG代理来解决多代理协作环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最大分值之后,连续100次以上)。 具体来说, 在每个情节之后,我们将汇总每个代理商的奖励(不打折),以获得每个代理商的得分。 这将产生2个(可能不同)的分数。 然后,我们取这两个分数中的最大值。 这为每
2022-01-13 16:41:31 1.06MB JupyterNotebook
1