学习+彭伟《揭秘深度强化学习》PDF+源代码+资料-附件资源
2021-09-17 17:00:05 23B
1
TensorFlow2中的深度强化学习 是一个使用实现各种流行的深度强化学习算法的存储库。 该存储库的关键是易于理解的代码。 因此,如果您是学生或研究深度强化学习的研究人员,我认为这是使用此存储库学习的最佳选择。 一种算法仅依赖于一个python脚本文件。 因此,您不必进出不同的文件即可研究特定的算法。 该存储库将不断更新,并将继续添加新的“深度强化学习”算法。 演算法 DQN 纸上 作者Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Alex Graves,Ioannis Antonoglou,Daan Wierstra,Martin Rie
1
拨盘 分布式资源分配与Multi-Agent的深强化学习的5G-V2V通信 。 此存储库包含玩具示例的源代码,我们在本文中使用了该示例来测试算法的性能。 抽象的 我们考虑在没有基站的情况下在车对车(V2V)通信中的分布式资源选择问题。 每辆车从共享资源池中自主选择传输资源,以传播合作意识消息(CAM)。 这是每个车辆必须选择唯一资源的共识问题。 当由于移动性而彼此相邻的车辆数量在动态变化时,这个问题变得更具挑战性。 在拥挤的情况下,为每辆车分配唯一资源变得不可行,并且必须开发拥挤的资源分配策略。 5G中的标准化方法,即半永久性调度(SPS)受车辆空间分布造成的影响。 在我们的方法中,我们将其转化为优势。 我们提出了一种使用多主体强化学习(DIRAL)的新颖的DIstributed资源分配机制,该机制建立在唯一的状态表示之上。 一个具有挑战性的问题是应对并发学习代理引入的非平稳性,这会导致多
2021-09-13 11:37:09 8.63MB Python
1
行业-电子政务-基于深度Q学习的低压电器卡合装配技术研究.zip
2021-09-11 09:01:57 13.98MB 行业-电子政务-基于深度Q学习的
鉴于深度强化学习(DRL)在推荐系统研究中的出现,以及近年来取得的丰硕成果,本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我们从在推荐系统中应用DRL的动机开始。
2021-09-10 09:10:34 1.42MB 深度强化学习
1
与抽象状态相关联.这种关联性信息可以产生对应 问题的学习 技 巧(也 称 为 Option).例 如,在 著 名 的 出租车问题中[87],其中的一组抽象状态是出租车起 始和乘客所处的位置,那么此时Option就是从出租 车起始位置到乘客所处位置的一系列动作组合.很 明显,生成的Option相当于h-DQN模型中设定的 中间目标,省去了复杂的人工设定中间目标的过程, 并使得学习到的Option与具体的学习任务无关.因 此在相同的状态空间下,该模型具有很强的泛化性. 6.3 深度后续强化学习 一般地,在 只 给 定 原 始 输 入 观 察 和 奖 赏 值 的 情况下,通 过 基 于 模 型(model-based)或 者 模 型 无 关(model-free)的DRL算 法 可 以 学 习 到 鲁 棒 的 值 函数.后 续 状 态 表 示 法(Successor Representation, SR)为学习值函数提供了第3种选择.SR将值函数 分解为两个部分:后续状态映射图(successor map) 和立即奖赏指示器(reward predictor).后续状态映 射图表示在给定当前状态下到达未来某一状态占有 率的期望.立即奖赏指示器表示从状态到奖赏值的 映射.在SR中,这两个部分以内积的形式构成值函 数.基于上述理论知识,Kulkarni等人[88]将SR的应 用范围扩展到大规模状态空间的DRL问题中,提出 了深度后续强化学习(Deep Successor Reinforcement Learning,DSRL). 21 计  算  机  学  报 2018年
1
用深度强化学习玩雅达利-------汇总
2021-09-01 09:13:45 60KB 神经网络
1
基于视觉注意机制深度强化学习的行人检测方法.pdf
2021-08-31 18:03:03 6.11MB 互联网 资料
基于随机遮挡辅助深度表征学习的车辆再辨识.pdf
2021-08-31 18:03:03 8.86MB 互联网 资料
基于特定深度内部学习网络提高“不理想”图像分辨率.pdf
2021-08-31 18:03:02 6.4MB 互联网 资料