DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–256,1992年。 影评人:理查德·萨顿(Richard S Sutton),大卫·麦卡莱斯特(David A McAllester),萨特德·辛格(Satinder P Singh)和伊谢·曼苏(Yishay Mansour)。 通过函数逼近进行强化学习的策略梯度方法。 在《神经信息处理系统的进步
2021-11-29 19:50:58 15KB Python
1
matlab贪婪算法代码手稿“Deep Reinforcement Learning for Distributed Dynamic MISO Downlink-Beamforming Coordination”的仿真代码,已在 IEEE Transactions on Communications 上发表。 运行模拟程序和绘制图形的要求 仿真程序需要安装Keras、Tensorflow、Numpy、Scipy等软件包的Python3。图形由MATLAB绘制。 演示模拟程序的结构 ./DRL_for_DDBC/codebook/codebook.mat保存当前仿真程序使用的码本矩阵的文件。 ./DRL_for_DDBC/data文件夹保存四种方案的仿真结果。 ./DRL_for_DDBC/rates文件夹保存模拟过程中每个单元格的可实现率 ./DRL_for_DDBC/base_station.py基站模拟器 ./DRL_for_DDBC/cellular_network.py蜂窝网络模拟器 ./DRL_for_DDBC/channel.py通道模拟器 ./DRL_for_DDBC/c
2021-11-28 15:12:16 51.07MB 系统开源
1
深度强化学习(Deep Reinforcement Learning )是研究的热点之一,在2019年DeepMind OpenAI等发表多篇热门论文。来自SprekelerLab的博士生 Robert Tjarko Lange总结了2019年十大深度强化学习论文,涉及到大型项目、模型RL、多代理RL、学习动力学、组合先验等,值得一看。
2021-11-08 20:15:32 40.84MB DRL
1
具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
使用深度增强学习玩Atari游戏,不错的论文,值得一看,想快下
2021-10-21 08:20:20 472KB AI DRL Atari
1
公用池资源系统中的深度多主体强化学习 中的论文中的实验源代码。 该论文已被接受并发表在IEEE CEC 2019上。 介绍 在复杂的社会生态系统中,具有不同目标的多个代理机构采取的行动会影响系统的长期动态。 共同资产池是此类系统的子集,在这些系统中,财产权通常定义不清,先验性未知,因此造成了社会困境,这是众所周知的公地悲剧反映出来的。 在本文中,我们研究了在公共资源池系统的多主体设置中进行深度强化学习的功效。 我们使用了系统的抽象数学模型,表示为部分可观察到的一般和马尔可夫博弈。 在第一组实验中,独立主体使用具有离散动作空间的深度Q网络来指导决策。 但是,明显的缺点是显而易见的。 因此,在第二组实验中,具有连续状态和动作空间的深度确定性策略梯度学习模型指导了主体学习。 仿真结果表明,使用第二种深度学习模型时,代理商在可持续性和经济目标方面的表现均明显更好。 尽管代理商没有完全的预见力或对他
1
多用户移动边缘计算的分散式计算分流:一种深度强化学习方法 多用户移动边缘计算的分散式计算分流:一种深度强化学习方法 这实现了论文中的算法 一些提示:尝试通过运行ipynb文件之一来开始您的旅程,例如test_save_model_multiple_t02_noBuf.ipynb。 “用于多用户移动边缘计算的分散式计算分流:一种深度强化学习方法” 如果您发现这对您的研究有用,请使用 @article {chen2018decentralized,title = {用于多用户移动边缘计算的分散式计算分流:一种深度强化学习方法},作者= {Chen,Zhao和Wang,Xiaodong},journal = {arXiv预印本arXiv:1812.07394},年= {2018}} 如有任何疑问,请通过与我联系。
2021-09-24 16:46:28 444.79MB JupyterNotebook
1
分布式DRL 分布式深度强化学习 该框架的灵感来自OpenAI的通用RL培训系统Rapid 。 快速框架: 我们的框架: 教程 该框架将强化学习过程分为五个部分: 重播缓冲区(选项) 参数服务器 火车(学习) 推出 测试 @ ray . remote class ReplayBuffer : ... # replay buffer @ ray . remote class ParameterServer ( object ): ... # keep the newest network weights here # could pull and push the weights # also could save the weights to local @ ray . remote ( num_gpus = 1 ,
2021-09-18 15:12:57 874KB Python
1
内容包含Easy-RL的200页PDF,入门深度强化学习170页PPT,lecture-alphastar76页PDF.
2021-05-28 21:05:37 107.87MB RL DRL 强化学习 深度强化学习
1
使用强化学习玩flappy-bird,里面带有详细的安装教程
2021-05-13 20:02:48 11.27MB DQN
1