搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

为解决软件定义网络场景中，当前主流的基于启发式算法的QoS优化方案常因参数与网络场景不匹配出现性能下降的问题，提出了基于深度强化学习的软件定义网络QoS优化算法。首先将网络资源和状态信息统一到网络模型中，然后通过长短期记忆网络提升算法的流量感知能力，最后基于深度强化学习生成满足QoS目标的动态流量调度策略。实验结果表明，相对于现有算法，所提算法不但保证了端到端传输时延和分组丢失率，而且提高了22.7%的网络负载均衡程度，增加了8.2%的网络吞吐率。

2022-01-04 10:48:47 1.24MB 软件定义网络 深度强化学习 长短期记忆 服务质量

1

reinforcement learning: an introduction (2nd edition) 第二版正式版

正式版第二版，来自于内部分享。不是试用版。高清、能复制

2022-01-02 17:42:28 85.29MB 强化学习 机器学习

1

FlappyBirdRL：使用强化学习的Flappy Bird hack-源码

FlappyBirdRL 使用强化学习的Flappy Bird hack 您可以在此处查看游戏和算法的摘要！自己运行代码代码并解压缩打开终端并导航到该文件夹 cd ~/Downloads/FlappyBirdRL-master 使用python启动一个简单的服务器 python -m SimpleHTTPServer 8000 更多细节。在浏览器中，导航到本地服务器的地址（默认为）。故障排除您启动服务器了吗？如果您刚刚打开index.html页面，则控制台中可能有关于原始请求的错误。右键单击屏幕上的任意位置，单击“检查”，然后查看控制台。是否存在以下错误？示例 Failed to load file:///Users/.../res/flappyAtlas/atlas.txt: Cross origin requests are only supported for protocol schemes: http, data, chrome, chrome-extension, https." ：该页面试图从磁盘加载文件，但是大多数现代浏览器将其阻

2022-01-02 15:30:54 39MB machine-learning reinforcement-learning flappy-bird MachinelearningJavaScript

1

强化学习 –baseline项目之gym中的Atari游戏的环境重写

gym中集成的atari游戏可用于DQN训练，但是操作还不够方便，于是baseline中专门对gym的环境重写，以更好地适应dqn的训练从源码中可以看出，只需要重写两个函数 reset（）和step() ，由于render（）没有被重写，所以画面就没有被显示出来了 1.NoopResetEnv（）函数，功能：前30帧画面什么都不做，跳过。这有利于增加初始画面的随机性，不容易陷入过拟合 class NoopResetEnv(gym.Wrapper): def __init__(self, env, noop_max=30): Sample initial

2021-12-31 10:35:23 77KB ar AS base

1

BioMARL:基于生物启发式算法的多智能体强化学习算法-源码

BioMARL：基于生物启发式算法的多智能体强化学习算法项目介绍：多智能体系统（MAS）通过解决复杂任务的规模，可靠性和智能性，已被广泛的地面不同的应用领域，如计算机网络，机器人和智能电网等。和生产的重要因素。然而，以往的多代理通信研究主要是预先定义的通信协议或采用额外的决策模块进行通信调度，这将造成巨大的通信开销，并且不能直接推广到一个大型代理集合。了一个轻量级的通信框架：基于信息素协同机制的分布式深度Q网络算法（Pheromone协作深度Q网络，PCDQN），它结合了深度Q网络和stigmergy机制。我们证明了PCDQN框架的优越性，同时也将我们的模型转移到解决多代理路径搜索问题上。利用PCDQN框架，多代理编队能够学习适当的策略，成功地在雷区导航环境中获得最优路径。实验环境 Windows10操作系统，8GB内存，2核Intel Core i7-6500U pytorch-

2021-12-30 23:40:46 7.65MB Python

1

采用多智能体强化学习的交通信号优化控制.pdf

在城市交通环境，交通流的正确预测是比较困难，因为多个十字路口，这使得预设的交通控制模型之间的相互作用和纠缠在一起，不能在所有的交通情况下始终保持高性能的预测。考虑到的强化学习的所具有的自主学习能力，本文提出了基于多智能体强化学习的交通信号控制方法。没有预设的控制模型，多协作代理可以学习相应的实时交通状况下的最优控制策略。通过实验结果证明了这种方法的可行性和有效性。

2021-12-30 22:47:49 237KB 综合文档

1

Deep Reinforcement Learning深度强化学习

Deep Reinforcement Learning深度强化学习Deep Reinforcement Learning, 2017

2021-12-30 14:55:59 3.41MB 深度强化学习

1

DeepQLearning.jl:在“使用深度强化学习玩Atari”中描述的DeepMind的Deep Q学习算法的Julia实现-源码

DeepQLearning.jl 如使用所述，DeepMind的Deep Q-Learning算法的Julia实现。此代码仅实现基本算法。它不包括卷积网络的代码。但是，可以使用Mocha.jl轻松添加。取而代之的是，它使用了更简单的单层神经网络。有关原始注意：此库已经过各种学习任务的测试，似乎可以正常运行，但尚未准备好供公众使用。范例程式码 using DeepQLearning ... coming soon ... I hope :) ## Dependencies此库需要。 ## Credits该库借鉴了的作品执照麻省理工学院

2021-12-29 16:55:27 6KB Julia

1

强化学习精要：核心算法与TensorFlow实现

强化学习精要核心算法与TensorFlow实现书籍，及每个章节的代码，很清晰还带目录，很清晰还带目录，很清晰还带目录，重要的说三遍

2021-12-29 16:50:12 76.32MB 强化学习 核心算法 tensorflow

1

强化学习在阿里的技术演进与业务创新_reinforcement_learning--2018高清有书签文字版

最近因为与深度学习结合，解决海量数据的泛化问题，取得了让⼈印象深刻的成果。包括 DeepMind 的⾃动学习玩 ATARI 游戏，以及 AlphaGo 在围棋⼤赛中战胜世界冠军等，其背后的强⼤武器就是深度强化学习技术。相对于 DeepMind 和学术界看重强化学习的前沿研究，阿⾥巴巴则将重点放在推动强化学习技术输出及商业应⽤。在阿⾥移动电商平台中，⼈机交互的便捷，碎⽚化使⽤的普遍性，页⾯切换的串⾏化，⽤户轨迹的可跟踪性等都要求我们的系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的载体，需要在与消费者的互动过程中，根据对消费者（环境）的理解，及时调整提供信息（商品、客服机器⼈的回答、路径选择等）的策略，从⽽最⼤化过程累积收益（消费者在平台上的使⽤体验）。基于监督学习⽅式的信息提供⼿段，缺少有效的探索能⼒，系统倾向于给消费者推送曾经发⽣过⾏为的信息单元（商品、店铺或问题答案）。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建模和最⼤化过程累积收益的学习⽅法，在⼀些阿⾥具体的业务场景中进⾏了很好的实践并得到⼤规模应⽤。

2021-12-29 15:12:14 19.72MB 强化学习 增强学习 阿里巴巴

1

个人信息

热门下载

最新下载

其他资源