为解决软件定义网络场景中,当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题,提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中,然后通过长短期记忆网络提升算法的流量感知能力,最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明,相对于现有算法,所提算法不但保证了端到端传输时延和分组丢失率,而且提高了22.7%的网络负载均衡程度,增加了8.2%的网络吞吐率。
1
正式版第二版,来自于内部分享。不是试用版。高清、能复制
2022-01-02 17:42:28 85.29MB 强化学习 机器学习
1
FlappyBirdRL 使用强化学习的Flappy Bird hack 您可以在此处查看游戏和算法的摘要! 自己运行代码 代码并解压缩 打开终端并导航到该文件夹 cd ~/Downloads/FlappyBirdRL-master 使用python启动一个简单的服务器 python -m SimpleHTTPServer 8000 更多细节。 在浏览器中,导航到本地服务器的地址(默认为 )。 故障排除 您启动服务器了吗? 如果您刚刚打开index.html页面,则控制台中可能有关于原始请求的错误。 右键单击屏幕上的任意位置,单击“检查”,然后查看控制台。 是否存在以下错误? 示例 Failed to load file:///Users/.../res/flappyAtlas/atlas.txt: Cross origin requests are only supported for protocol schemes: http, data, chrome, chrome-extension, https." :该页面试图从磁盘加载文件,但是大多数现代浏览器将其阻
1
gym中集成的atari游戏可用于DQN训练,但是操作还不够方便,于是baseline中专门对gym的环境重写,以更好地适应dqn的训练      从源码中可以看出,只需要重写两个函数 reset()和step() ,由于render()没有被重写,所以画面就没有被显示出来了 1.NoopResetEnv()函数,功能:前30帧画面什么都不做,跳过。这有利于增加初始画面的随机性,不容易陷入过拟合 class NoopResetEnv(gym.Wrapper): def __init__(self, env, noop_max=30): Sample initial
2021-12-31 10:35:23 77KB ar AS base
1
BioMARL:基于生物启发式算法的多智能体强化学习算法 项目介绍: 多智能体系统(MAS)通过解决复杂任务的规模,可靠性和智能性,已被广泛的地面不同的应用领域,如计算机网络,机器人和智能电网等。和生产的重要因素。然而,以往的多代理通信研究主要是预先定义的通信协议或采用额外的决策模块进行通信调度,这将造成巨大的通信开销,并且不能直接推广到一个大型代理集合。了一个轻量级的通信框架:基于信息素协同机制的分布式深度Q网络算法(Pheromone协作深度Q网络,PCDQN) ,它结合了深度Q网络和stigmergy机制。我们证明了PCDQN框架的优越性,同时也将我们的模型转移到解决多代理路径搜索问题上。利用PCDQN框架,多代理编队能够学习适当的策略,成功地在雷区导航环境中获得最优路径。 实验环境 Windows10操作系统,8GB内存,2核Intel Core i7-6500U pytorch-
2021-12-30 23:40:46 7.65MB Python
1
在城市交通环境,交通流的正确预测是比较困难,因为多个十字路口,这使得预设的交通控制 模型之间的相互作用和纠缠在一起,不能在所有的交通情况下始终保持高性能的预测。考虑 到的强化学习的所具有的自主学习能力,本文提出了基于多智能体强化学习的交通信号控制方 法。没有预设的控制模型,多协作代理可以学习相应的实时交通状况下的最优控制策略。通过 实验结果证明了这种方法的可行性和有效性。
2021-12-30 22:47:49 237KB 综合文档
1
Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017
2021-12-30 14:55:59 3.41MB 深度强化学习
1
DeepQLearning.jl 如使用所述,DeepMind的Deep Q-Learning算法的Julia实现。 此代码仅实现基本算法。 它不包括卷积网络的代码。 但是,可以使用Mocha.jl轻松添加。 取而代之的是,它使用了更简单的单层神经网络。 有关原始 注意:此库已经过各种学习任务的测试,似乎可以正常运行,但尚未准备好供公众使用。 范例程式码 using DeepQLearning ... coming soon ... I hope :) ## Dependencies此库需要 。 ## Credits该库借鉴了的作品 执照 麻省理工学院
2021-12-29 16:55:27 6KB Julia
1
强化学习精要 核心算法与TensorFlow实现书籍,及每个章节的代码,很清晰还带目录,很清晰还带目录,很清晰还带目录,重要的说三遍
2021-12-29 16:50:12 76.32MB 强化学习 核心算法 tensorflow
1
最近因为与深度学习结合,解决海量数据的泛化问题,取得了让⼈印象深刻 的成果。包括 DeepMind 的⾃动学习玩 ATARI 游戏,以及 AlphaGo 在围棋⼤赛中 战胜世界冠军等,其背后的强⼤武器就是深度强化学习技术。相对于 DeepMind 和学术界看重强化学习的前沿研究,阿⾥巴巴则将重点放在推动强化学习技术 输出及商业应⽤。在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普 遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器⼈的回答、路径选择等)的策略,从⽽最⼤化过程累 积收益(消费者在平台上的使⽤体验)。基于监督学习⽅式的信息提供⼿段,缺 少有效的探索能⼒,系统倾向于给消费者推送曾经发⽣过⾏为的信息单元(商 品、店铺或问题答案)。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建 模和最⼤化过程累积收益的学习⽅法,在⼀些阿⾥具体的业务场景中进⾏了很 好的实践并得到⼤规模应⽤。
2021-12-29 15:12:14 19.72MB 强化学习 增强学习 阿里巴巴
1