搜索【深度强化】的结果

AC-Gym：适用于OpenAI Gym环境的PyTorch中流行的ActorCritic深度强化学习算法-源码

该存储库结合了来自三个来源qv的代码，以获取详细信息： Pack Publishing的第19章斯科特·藤本的马克斯·拉潘（Max Lapan）的我使用此存储库的目标是将所有这些算法集中在一个地方，并具有简单，统一的命令行界面和最小的外部依存关系（，）。快速开始 python3 td3-learn.py --target -500 这将在默认环境（）上运行算法，直到达到-500的平均奖励（在我的Asus Predator Helios笔记本电脑上大约需要23秒）。程序完成后，您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。如果您已安装，则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3

2022-01-15 16:02:13 41KB Python

1

深度强化学习mujoco平台搭建指南

详细总结了如何在ubuntu16.04的基础上搭建深度强化学习mujoco的环境，可按照Openai的gym针对mujoco-py进行深度强化学习训练，解决了mujoco安装后，Ubuntu重启键盘鼠标失灵的情况。

2022-01-08 08:51:53 12KB 强化学习 深度学习 机器人 物理仿真平台

1

maze_dqn:使用深度强化学习（DQN）解决迷宫任务-源码

maze_dqn 使用深度强化学习（DQN）解决迷宫任务

2022-01-06 09:45:12 18KB

1

基于多维状态动作的DDPG冲突解脱算法研究

本文利用 Gym 对仿真环境进行注册，对 OpenScope 进行功能性改造，引入成都双流机场最新进近区域内的固定点数据，包括各个扇区参数、进离场航线数据、进近区管辖范围数据等，设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离场情景，充分考虑了各种复杂情况下的冲突。其次，针对不同空域的复杂程度设计了相应的冲突场景，如航路上的交叉冲突以及对头冲突，进、离场时的对头冲突、超越冲突等，构建完备的冲突集。为了降低模型的复杂度，假设航空器在转弯过程中不考虑最小转弯半径的限制。最后，考虑到解脱动作的连续性以及智能体状态的复杂性，本文以保障飞行安全为前提，对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实现智能体之间的交互训练任务，设计了冲突解脱模型的奖励函数，采用深度强化学习中经典算法 DDPG 进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均能够搜索到较优的解脱策略，冲突解脱成功率达到 89% 以上，可以作为管制员进行冲突解脱的参考方案之一。

2022-01-04 13:01:40 11.77MB 空中交通管制 冲突探测与解脱 深度强化学习 DDPG

基于深度强化学习的软件定义网络QoS优化

为解决软件定义网络场景中，当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题，提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中，然后通过长短期记忆网络提升算法的流量感知能力，最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明，相对于现有算法，所提算法不但保证了端到端传输时延和分组丢失率，而且提高了22.7%的网络负载均衡程度，增加了8.2%的网络吞吐率。

2022-01-04 10:48:47 1.24MB 软件定义网络 深度强化学习 长短期记忆 服务质量

1

Deep Reinforcement Learning深度强化学习

Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017

2021-12-30 14:55:59 3.41MB 深度强化学习

1

DeepQLearning.jl:在“使用深度强化学习玩Atari”中描述的DeepMind的Deep Q学习算法的Julia实现-源码

DeepQLearning.jl 如使用所述，DeepMind的Deep Q-Learning算法的Julia实现。此代码仅实现基本算法。它不包括卷积网络的代码。但是，可以使用Mocha.jl轻松添加。取而代之的是，它使用了更简单的单层神经网络。有关原始注意：此库已经过各种学习任务的测试，似乎可以正常运行，但尚未准备好供公众使用。范例程式码 using DeepQLearning ... coming soon ... I hope :) ## Dependencies此库需要。 ## Credits该库借鉴了的作品执照麻省理工学院

2021-12-29 16:55:27 6KB Julia

1

Continuous Control with Deep Reinforcement Learning持续控制与深度强化学习

我们将深度Q-Learning成功背后的理念与持续的动作域。我们提出了一种基于确定性模型的无模型算法可以在连续动作空间上操作的策略梯度。使用同样的学习算法，网络结构和超参数，我们的算法稳健地解决20多个模拟物理任务，包括经典如手推车摆动、灵巧操作、腿部运动等问题还有开车。我们的算法能够找到性能具有竞争力的策略与那些发现的规划算法完全访问的动态域及其衍生物的。我们进一步证明，对于许多任务算法可以“端到端”学习策略：直接从原始像素输入。

2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制

1

硕士论文：自动驾驶中的深度强化学习：用于使汽车学习在TORCS中驾驶的A3C算法； Python 3.5，Tensorflow，张量板，numpy，gym-torcs，ubuntu，乳胶-源码

自动驾驶中的深度强化学习最适合离散操作：4名工人，学习率1e-4 无法使其在连续动作空间中正常工作；它产生的动作出了问题 A3C创意总览人工神经网络的架构

2021-12-27 23:11:40 224.81MB python multi-threading deep-neural-networks latex

1

基于深度强化学习的机器人运动控制

强化学习范式原则上允许复杂行为直接从简单的奖励信号中学习。然而，在实践中，情况确实如此常见的手工设计奖励功能，以鼓励特定的解决方案，或从演示数据中导出。本文探讨了如何丰富环境有助于促进复杂行为的学习。明确地我们在不同的环境环境中培训代理人，并发现这鼓励了他们在一系列任务中表现良好的稳健行为的出现。我们为运动演示了这一原则——众所周知的行为他们对奖励选择的敏感度。我们在一个平台上训练几个模拟物体使用一个简单的奖励功能，可以设置各种具有挑战性的地形和障碍基于向前的进展。使用一种新的可伸缩策略梯度变体强化学习，我们的特工可以根据需要学习跑、跳、蹲和转身在没有明确的基于奖励的指导的环境下。对……的视觉描绘学习行为的要点可以在本视频中查看。

2021-12-24 12:08:07 2.23MB 深度学习 强化学习 机器人 运动控制

1

个人信息

热门下载

最新下载

其他资源