搜索【深度强化学习】的结果

-深度强化学习已成功应用于各种电脑游戏[8]。然而，它在实际应用中仍然很少使用，尤其是在实际移动机器人的导航和连续控制中[13]。以前的方法缺乏安全性和鲁棒性，并且/或者需要一个结构化的环境。在本文中，我们提出了一种在未知环境下，无地图或规划器的真实机器人自主自学习导航的概念证明。机器人的输入仅仅是来自2D激光扫描仪和RGB-D相机的融合数据，以及目标的方向。环境地图是未知的。异步网络（GA3C）的输出动作是机器人的线性速度和角速度。导航/控制器网络在一个高速、并行、自实现的仿真环境中进行预训练，以加快学习过程，然后部署到实际机器人上。为了避免过度拟合，我们训练相对较小的网络，并向输入激光数据中添加随机高斯噪声。传感器数据与RGB-D摄像头的融合使机器人能够在真实环境中进行导航，实现真正的3D避障，而无需使环境适应机器人的感官能力。为了进一步提高鲁棒性，我们在各种困难的环境中进行训练，并同时运行32个训练实例

2022-01-30 09:05:32 107.93MB 自主机器人

百度开源的深度强化学习框架PARL源代码

ARL 框架的名字来源于 PAddlepaddle Reinfocement Learning，是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比，具有更高的可扩展性、可复现性和可复用性，支持大规模并行和稀疏特征，能够快速对工业级应用案例的验证。这个在 github 上是开源的，但是鉴于有些朋友工具受限下载很慢，所以特地搬运过来！

2022-01-26 13:53:22 24.68MB 强化学习 深度学习框架 PARL 强化学习框架

1

FCMADDPG_编队控制学习_MADDPG_编队控制_编队_深度强化学习_源码

基于深度强化学习的编队控制使用MADDPG算法

2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队

1

SimpleDS:一个简单的深度强化学习对话系统-源码

SimpleDS 一个简单的深度强化学习对话系统描述 SimpleDS是用于通过深度强化学习来训练面向任务的对话系统的计算框架。与其他对话系统相比，此系统直接从上一个系统的原始（嘈杂的）文本或单词嵌入以及用户响应中直接选择对话动作-正在进行的原始音频的支持。这样做的动机是在尽可能少的人工干预下训练对话代理。该系统在客户端-服务器架构下运行，其中学习代理（在JavaScript中）充当“客户端”，而环境（在Java中）充当“服务器”。它们通过交换消息进行通信，客户端告诉客户端要执行的操作，服务器告诉客户端可用的操作，环境状态和观察到的奖励。 SimpleDS是顶部的（口语）对话系统通过约束搜索空间的多线程和客户端-服务器处理的支持，以及快速学习。该系统已经通过使用Google语音识别器的模拟对话和真实对话进行了测试。它也已经用三种不同的语言进行了测试：英语，德语和西班牙语

2022-01-15 17:55:21 11.44MB 系统开源

1

AC-Gym：适用于OpenAI Gym环境的PyTorch中流行的ActorCritic深度强化学习算法-源码

该存储库结合了来自三个来源qv的代码，以获取详细信息： Pack Publishing的第19章斯科特·藤本的马克斯·拉潘（Max Lapan）的我使用此存储库的目标是将所有这些算法集中在一个地方，并具有简单，统一的命令行界面和最小的外部依存关系（，）。快速开始 python3 td3-learn.py --target -500 这将在默认环境（）上运行算法，直到达到-500的平均奖励（在我的Asus Predator Helios笔记本电脑上大约需要23秒）。程序完成后，您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。如果您已安装，则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3

2022-01-15 16:02:13 41KB Python

1

深度强化学习mujoco平台搭建指南

详细总结了如何在ubuntu16.04的基础上搭建深度强化学习mujoco的环境，可按照Openai的gym针对mujoco-py进行深度强化学习训练，解决了mujoco安装后，Ubuntu重启键盘鼠标失灵的情况。

2022-01-08 08:51:53 12KB 强化学习 深度学习 机器人 物理仿真平台

1

maze_dqn:使用深度强化学习（DQN）解决迷宫任务-源码

maze_dqn 使用深度强化学习（DQN）解决迷宫任务

2022-01-06 09:45:12 18KB

1

基于多维状态动作的DDPG冲突解脱算法研究

本文利用 Gym 对仿真环境进行注册，对 OpenScope 进行功能性改造，引入成都双流机场最新进近区域内的固定点数据，包括各个扇区参数、进离场航线数据、进近区管辖范围数据等，设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离场情景，充分考虑了各种复杂情况下的冲突。其次，针对不同空域的复杂程度设计了相应的冲突场景，如航路上的交叉冲突以及对头冲突，进、离场时的对头冲突、超越冲突等，构建完备的冲突集。为了降低模型的复杂度，假设航空器在转弯过程中不考虑最小转弯半径的限制。最后，考虑到解脱动作的连续性以及智能体状态的复杂性，本文以保障飞行安全为前提，对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实现智能体之间的交互训练任务，设计了冲突解脱模型的奖励函数，采用深度强化学习中经典算法 DDPG 进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均能够搜索到较优的解脱策略，冲突解脱成功率达到 89% 以上，可以作为管制员进行冲突解脱的参考方案之一。

2022-01-04 13:01:40 11.77MB 空中交通管制 冲突探测与解脱 深度强化学习 DDPG

基于深度强化学习的软件定义网络QoS优化

为解决软件定义网络场景中，当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题，提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中，然后通过长短期记忆网络提升算法的流量感知能力，最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明，相对于现有算法，所提算法不但保证了端到端传输时延和分组丢失率，而且提高了22.7%的网络负载均衡程度，增加了8.2%的网络吞吐率。

2022-01-04 10:48:47 1.24MB 软件定义网络 深度强化学习 长短期记忆 服务质量

1

Deep Reinforcement Learning深度强化学习

Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017

2021-12-30 14:55:59 3.41MB 深度强化学习

1

个人信息

热门下载

最新下载

其他资源