基于深度强化学习的编队控制使用MADDPG算法
2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队
1
SimpleDS 一个简单的深度强化学习对话系统 描述 SimpleDS是用于通过深度强化学习来训练面向任务的对话系统的计算框架。 与其他对话系统相比,此系统直接从上一个系统的原始(嘈杂的)文本或单词嵌入以及用户响应中直接选择对话动作-正在进行的原始音频的支持。 这样做的动机是在尽可能少的人工干预下训练对话代理。 该系统在客户端-服务器架构下运行,其中学习代理(在JavaScript中)充当“客户端”,而环境(在Java中)充当“服务器”。 它们通过交换消息进行通信,客户端告诉客户端要执行的操作,服务器告诉客户端可用的操作,环境状态和观察到的奖励。 SimpleDS是顶部的(口语)对话系统通过约束搜索空间的多线程和客户端-服务器处理的支持,以及快速学习。 该系统已经通过使用Google语音识别器的模拟对话和真实对话进行了测试。 它也已经用三种不同的语言进行了测试:英语,德语和西班牙语
2022-01-15 17:55:21 11.44MB 系统开源
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
Python计算机视觉深度学习 2017新款 Python计算机视觉深度学习 2017新款 原版
2022-01-13 20:46:28 5.46MB python 深度 视觉 学习
1
详细总结了如何在ubuntu16.04的基础上搭建深度强化学习mujoco的环境,可按照Openai的gym针对mujoco-py进行深度强化学习训练,解决了mujoco安装后,Ubuntu重启键盘鼠标失灵的情况。
1
maze_dqn 使用深度强化学习(DQN)解决迷宫任务
2022-01-06 09:45:12 18KB
1
matlab代码做游戏Matlab 2048 一个在Matlab中使用深度Q学习的代理人玩游戏。 注意! 我从来没有得到过很好学习的这段代码,欢迎进行改进! 如何下载代码: git--recursive clone https://github.com/tambetm/matlab2048.git 该代码使用我的fork实现神经网络。 如何运行: clear all; rng('shuffle'); % Add DeepLearnToolbox to path addpath(genpath('DeepLearnToolbox')); % How many games to play n = 100; % Number of groups for averaging k = 10; % Creates new agent with following parameters: opts.exploration_steps = 0; opts.exploration_rate = 0.05; opts.discount_rate = 0; opts.learning_rate = 0.00
2022-01-04 16:08:25 1.35MB 系统开源
1
本文利用 Gym 对仿真环境进行注册,对 OpenScope 进行功能性改造,引入 成都双流机场最新进近区域内的固定点数据,包括各个扇区参数、进离场航线数据、进 近区管辖范围数据等,设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离 场情景,充分考虑了各种复杂情况下的冲突。其次,针对不同空域的复杂程度设计了相 应的冲突场景,如航路上的交叉冲突以及对头冲突,进、离场时的对头冲突、超越冲突 等,构建完备的冲突集。为了降低模型的复杂度,假设航空器在转弯过程中不考虑最小 转弯半径的限制。最后,考虑到解脱动作的连续性以及智能体状态的复杂性,本文以保 障飞行安全为前提,对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实 现智能体之间的交互训练任务,设计了冲突解脱模型的奖励函数,采用深度强化学习中 经典算法 DDPG 进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均 能够搜索到较优的解脱策略,冲突解脱成功率达到 89% 以上,可以作为管制员进行冲 突解脱的参考方案之一。
为解决软件定义网络场景中,当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题,提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中,然后通过长短期记忆网络提升算法的流量感知能力,最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明,相对于现有算法,所提算法不但保证了端到端传输时延和分组丢失率,而且提高了22.7%的网络负载均衡程度,增加了8.2%的网络吞吐率。
1
matlab卷积神经网络去噪代码
2022-01-02 19:59:21 64.84MB 系统开源
1