本文利用 Gym 对仿真环境进行注册,对 OpenScope 进行功能性改造,引入 成都双流机场最新进近区域内的固定点数据,包括各个扇区参数、进离场航线数据、进 近区管辖范围数据等,设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离 场情景,充分考虑了各种复杂情况下的冲突。其次,针对不同空域的复杂程度设计了相 应的冲突场景,如航路上的交叉冲突以及对头冲突,进、离场时的对头冲突、超越冲突 等,构建完备的冲突集。为了降低模型的复杂度,假设航空器在转弯过程中不考虑最小 转弯半径的限制。最后,考虑到解脱动作的连续性以及智能体状态的复杂性,本文以保 障飞行安全为前提,对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实 现智能体之间的交互训练任务,设计了冲突解脱模型的奖励函数,采用深度强化学习中 经典算法 DDPG 进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均 能够搜索到较优的解脱策略,冲突解脱成功率达到 89% 以上,可以作为管制员进行冲 突解脱的参考方案之一。
为解决软件定义网络场景中,当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题,提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中,然后通过长短期记忆网络提升算法的流量感知能力,最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明,相对于现有算法,所提算法不但保证了端到端传输时延和分组丢失率,而且提高了22.7%的网络负载均衡程度,增加了8.2%的网络吞吐率。
1
Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017
2021-12-30 14:55:59 3.41MB 深度强化学习
1
DeepQLearning.jl 如使用所述,DeepMind的Deep Q-Learning算法的Julia实现。 此代码仅实现基本算法。 它不包括卷积网络的代码。 但是,可以使用Mocha.jl轻松添加。 取而代之的是,它使用了更简单的单层神经网络。 有关原始 注意:此库已经过各种学习任务的测试,似乎可以正常运行,但尚未准备好供公众使用。 范例程式码 using DeepQLearning ... coming soon ... I hope :) ## Dependencies此库需要 。 ## Credits该库借鉴了的作品 执照 麻省理工学院
2021-12-29 16:55:27 6KB Julia
1
我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多 任务算法可以“端到端”学习策略:直接从原始像素输入。
2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制
1
自动驾驶中的深度强化学习 最适合离散操作:4名工人,学习率1e-4 无法使其在连续动作空间中正常工作; 它产生的动作出了问题 A3C创意 总览 人工神经网络的架构
2021-12-27 23:11:40 224.81MB python multi-threading deep-neural-networks latex
1
强化学习范式原则上允许复杂行为 直接从简单的奖励信号中学习。然而,在实践中,情况确实如此 常见的手工设计奖励功能,以鼓励特定的 解决方案,或从演示数据中导出。本文探讨了如何丰富 环境有助于促进复杂行为的学习。明确地 我们在不同的环境环境中培训代理人,并发现这鼓励了他们 在一系列任务中表现良好的稳健行为的出现。 我们为运动演示了这一原则——众所周知的行为 他们对奖励选择的敏感度。我们在一个平台上训练几个模拟物体 使用一个简单的奖励功能,可以设置各种具有挑战性的地形和障碍 基于向前的进展。使用一种新的可伸缩策略梯度变体 强化学习,我们的特工可以根据需要学习跑、跳、蹲和转身 在没有明确的基于奖励的指导的环境下。对……的视觉描绘 学习行为的要点可以在本视频中查看。
2021-12-24 12:08:07 2.23MB 深度学习 强化学习 机器人 运动控制
1
RL4StockTrading 使用深度强化学习进行股票交易
2021-12-23 11:06:52 4.97MB Python
1
DRL_GBI 我项目的代码和相关工作-结合(深度)强化学习和基于目标的投资 该项目已被选为2020年Spring商务毕业项目中的顶级项目。 还可以在Hanlon实验室网站上找到简短说明: : DDPG的代码设计 关于: 到目前为止,我已经上传了一个目标的DDPG代码。 我主要使用Stable_Baselines实现DDPG,并根据Gym界面自定义环境,以解决退休计划中指定的投资组合优化问题。 通过设置步长,我可以定期调整重量。 用法: 运行“ main_ddpg.py”并查看结果。 或者只是检查文件“结果”即可快速查看我的图。 我使用Callback监视我的训练并加载best_model来绘制结果。 数据集: 根据霍姆斯库博士的建议,我使用的投资组合包括: 4种股票指数:iShares罗素中型ETF,iShares罗素200强ETF,S&P 500指数和SPDR MSCI
2021-12-23 11:05:51 4.96MB R
1
强化学习工具箱(DRLToolbox) 概述 该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱,提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。 配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行? 运行run_window.py可启动窗口 启动界面 主界面 设置界面 其他功能详见项目大报告 什么是强化学习? 详见报告 最终表现 以贪吃蛇为例,经过超过500万次训练(超过48小时),一共完成36171局,每局分数如
2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python
1