TensorFlow2中的深度强化学习 是一个使用实现各种流行的深度强化学习算法的存储库。 该存储库的关键是易于理解的代码。 因此,如果您是学生或研究深度强化学习的研究人员,我认为这是使用此存储库学习的最佳选择。 一种算法仅依赖于一个python脚本文件。 因此,您不必进出不同的文件即可研究特定的算法。 该存储库将不断更新,并将继续添加新的“深度强化学习”算法。 演算法 DQN 纸上 作者Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Alex Graves,Ioannis Antonoglou,Daan Wierstra,Martin Rie
1
拨盘 分布式资源分配与Multi-Agent的深强化学习的5G-V2V通信 。 此存储库包含玩具示例的源代码,我们在本文中使用了该示例来测试算法的性能。 抽象的 我们考虑在没有基站的情况下在车对车(V2V)通信中的分布式资源选择问题。 每辆车从共享资源池中自主选择传输资源,以传播合作意识消息(CAM)。 这是每个车辆必须选择唯一资源的共识问题。 当由于移动性而彼此相邻的车辆数量在动态变化时,这个问题变得更具挑战性。 在拥挤的情况下,为每辆车分配唯一资源变得不可行,并且必须开发拥挤的资源分配策略。 5G中的标准化方法,即半永久性调度(SPS)受车辆空间分布造成的影响。 在我们的方法中,我们将其转化为优势。 我们提出了一种使用多主体强化学习(DIRAL)的新颖的DIstributed资源分配机制,该机制建立在唯一的状态表示之上。 一个具有挑战性的问题是应对并发学习代理引入的非平稳性,这会导致多
2021-09-13 11:37:09 8.63MB Python
1
鉴于深度强化学习(DRL)在推荐系统研究中的出现,以及近年来取得的丰硕成果,本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我们从在推荐系统中应用DRL的动机开始。
2021-09-10 09:10:34 1.42MB 深度强化学习
1
与抽象状态相关联.这种关联性信息可以产生对应 问题的学习 技 巧(也 称 为 Option).例 如,在 著 名 的 出租车问题中[87],其中的一组抽象状态是出租车起 始和乘客所处的位置,那么此时Option就是从出租 车起始位置到乘客所处位置的一系列动作组合.很 明显,生成的Option相当于h-DQN模型中设定的 中间目标,省去了复杂的人工设定中间目标的过程, 并使得学习到的Option与具体的学习任务无关.因 此在相同的状态空间下,该模型具有很强的泛化性. 6.3 深度后续强化学习 一般地,在 只 给 定 原 始 输 入 观 察 和 奖 赏 值 的 情况下,通 过 基 于 模 型(model-based)或 者 模 型 无 关(model-free)的DRL算 法 可 以 学 习 到 鲁 棒 的 值 函数.后 续 状 态 表 示 法(Successor Representation, SR)为学习值函数提供了第3种选择.SR将值函数 分解为两个部分:后续状态映射图(successor map) 和立即奖赏指示器(reward predictor).后续状态映 射图表示在给定当前状态下到达未来某一状态占有 率的期望.立即奖赏指示器表示从状态到奖赏值的 映射.在SR中,这两个部分以内积的形式构成值函 数.基于上述理论知识,Kulkarni等人[88]将SR的应 用范围扩展到大规模状态空间的DRL问题中,提出 了深度后续强化学习(Deep Successor Reinforcement Learning,DSRL). 21 计  算  机  学  报 2018年
1
深度强化学习玩雅达利-------汇总
2021-09-01 09:13:45 60KB 神经网络
1
基于视觉注意机制深度强化学习的行人检测方法.pdf
2021-08-31 18:03:03 6.11MB 互联网 资料
DQN深度强化学习算法, 水下机器人姿态控制, python代码
2021-08-29 20:03:04 10KB DQN python代码 姿态控制
A2C深度强化学习算法, 姿态控制, python代码
深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird
1
David Silver的强化学习基本上算是强化学习的入门视频,学习强化学习的人必看。这是David Silver强化学习课程学习笔记,除了视频里的内容,每一章节末尾附加了练习,便于实现和理解算法
2021-08-23 15:06:15 3.56MB RL 强化学习 深度强化学习 David
1