搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

d4rl:离线强化学习的基准-源码

D4RL：用于深度数据驱动的强化学习的数据集 D4RL是用于离线强化学习的开源基准。它为培训和基准测试算法提供了标准化的环境和数据集。还提供了补充和。设置可以通过以下方式克隆存储库来安装D4RL： git clone https://github.com/rail-berkeley/d4rl.git cd d4rl pip install -e . 或者，或者： pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl 控制环境需要MuJoCo作为依赖项。您可能需要获取并按照mujoco_py的设置说明进行操作。这主要涉及将密钥复制到您的MuJoCo安装文件夹。 Flow和CARLA任务还需要其他安装步骤：可以在找到安装CARLA的说明有关安装Flow的说明，请参见。确保使用SUMO模拟器进行

2022-01-21 10:36:50 25.24MB Python

1

强化学习简介——介绍强化学习的应用及理论.pptx

强化学习简介——介绍强化学习的应用及理论包含视频

2022-01-20 17:12:12 13.32MB RL 强化学习 Q-learning Q学习

1

从头开始训练机器人手臂：构建环境并从头开始训练机器人手臂（强化学习）-源码

从头开始训练机器人手臂：建立培训框架：学习从头开始构建环境：完成基本的环境脚本，看看手臂如何运动：插入强化学习方法并尝试对其进行培训：优化和调试：制定目标依存关系 Python 张量流 g 麻木此强化学习练习代码的中文教程为。您可以在上查看更多教程，或在了解有关我的更多信息。

2022-01-19 16:05:24 59KB python machine-learning tutorial reinforcement-learning

1

Algorithm_强化学习_ppo_强化学习算法_ActorCritic_强化学习AC_源码

强化学习的算法主要分为两大类：基于值的算法(Value-Based) 和基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法，然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法，也包括《RND》这篇论文中使用的PPO算法。

2022-01-19 11:02:59 8.81MB 强化学习 ppo 强化学习算法 ActorCritic

1

FCMADDPG_编队控制学习_MADDPG_编队控制_编队_深度强化学习_源码

基于深度强化学习的编队控制使用MADDPG算法

2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队

1

基于pytorch的强化学习倒立摆代码，直接运行可出来倒立摆的训练动画

2022-01-18 13:17:21 6KB 倒立摆 强化学习 深度学习

天棚阻尼-SIMULINK-S-Function,天棚阻尼控制原理,matlab源码

建立了四分之一半主动悬架和被动悬架，其次选取车身加速度、悬架动挠度和轮胎变形为评价指标，建立了最优控制器，最后在 matalb 中进行了仿真验证

2022-01-17 15:23:29 442KB 轮胎车身 半主动悬架 最优控制

1

SimpleDS:一个简单的深度强化学习对话系统-源码

SimpleDS 一个简单的深度强化学习对话系统描述 SimpleDS是用于通过深度强化学习来训练面向任务的对话系统的计算框架。与其他对话系统相比，此系统直接从上一个系统的原始（嘈杂的）文本或单词嵌入以及用户响应中直接选择对话动作-正在进行的原始音频的支持。这样做的动机是在尽可能少的人工干预下训练对话代理。该系统在客户端-服务器架构下运行，其中学习代理（在JavaScript中）充当“客户端”，而环境（在Java中）充当“服务器”。它们通过交换消息进行通信，客户端告诉客户端要执行的操作，服务器告诉客户端可用的操作，环境状态和观察到的奖励。 SimpleDS是顶部的（口语）对话系统通过约束搜索空间的多线程和客户端-服务器处理的支持，以及快速学习。该系统已经通过使用Google语音识别器的模拟对话和真实对话进行了测试。它也已经用三种不同的语言进行了测试：英语，德语和西班牙语

2022-01-15 17:55:21 11.44MB 系统开源

1

AC-Gym：适用于OpenAI Gym环境的PyTorch中流行的ActorCritic深度强化学习算法-源码

该存储库结合了来自三个来源qv的代码，以获取详细信息： Pack Publishing的第19章斯科特·藤本的马克斯·拉潘（Max Lapan）的我使用此存储库的目标是将所有这些算法集中在一个地方，并具有简单，统一的命令行界面和最小的外部依存关系（，）。快速开始 python3 td3-learn.py --target -500 这将在默认环境（）上运行算法，直到达到-500的平均奖励（在我的Asus Predator Helios笔记本电脑上大约需要23秒）。程序完成后，您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。如果您已安装，则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3

2022-01-15 16:02:13 41KB Python

1

多主体强化学习-源码

Udacity深度强化学习纳米学位-项目3：合作与竞争介绍对于这个Udacity项目，我使用了一个DDPG代理来解决多代理协作环境。在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。该任务是情节性的，并且为了解决环境，您的特工必须获得+0.5的平均分数（在两个特工均取得最大分值之后，连续100次以上）。具体来说，在每个情节之后，我们将汇总每个代理商的奖励（不打折），以获得每个代理商的得分。这将产生2个（可能不同）的分数。然后，我们取这两个分数中的最大值。这为每

2022-01-13 16:41:31 1.06MB JupyterNotebook

1

个人信息

热门下载

最新下载

其他资源