搜索【深度强化】的结果

DeepRL-TensorFlow2：using使用TensorFlow2轻松实现各种流行的深度强化学习算法-源码

TensorFlow2中的深度强化学习是一个使用实现各种流行的深度强化学习算法的存储库。该存储库的关键是易于理解的代码。因此，如果您是学生或研究深度强化学习的研究人员，我认为这是使用此存储库学习的最佳选择。一种算法仅依赖于一个python脚本文件。因此，您不必进出不同的文件即可研究特定的算法。该存储库将不断更新，并将继续添加新的“深度强化学习”算法。演算法 DQN 纸上作者Volodymyr Mnih，Koray Kavukcuoglu，David Silver，Alex Graves，Ioannis Antonoglou，Daan Wierstra，Martin Rie

2021-09-16 15:45:40 378KB machine-learning reinforcement-learning deep-learning tensorflow

1

DIRAL:用于5G-V2V通信的具有多智能体深度强化学习的分布式资源分配-源码

拨盘分布式资源分配与Multi-Agent的深强化学习的5G-V2V通信。此存储库包含玩具示例的源代码，我们在本文中使用了该示例来测试算法的性能。抽象的我们考虑在没有基站的情况下在车对车（V2V）通信中的分布式资源选择问题。每辆车从共享资源池中自主选择传输资源，以传播合作意识消息（CAM）。这是每个车辆必须选择唯一资源的共识问题。当由于移动性而彼此相邻的车辆数量在动态变化时，这个问题变得更具挑战性。在拥挤的情况下，为每辆车分配唯一资源变得不可行，并且必须开发拥挤的资源分配策略。 5G中的标准化方法，即半永久性调度（SPS）受车辆空间分布造成的影响。在我们的方法中，我们将其转化为优势。我们提出了一种使用多主体强化学习（DIRAL）的新颖的DIstributed资源分配机制，该机制建立在唯一的状态表示之上。一个具有挑战性的问题是应对并发学习代理引入的非平稳性，这会导致多

2021-09-13 11:37:09 8.63MB Python

1

新南威尔士首篇《深度强化学习推荐系统》综述论文

鉴于深度强化学习(DRL)在推荐系统研究中的出现，以及近年来取得的丰硕成果，本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我们从在推荐系统中应用DRL的动机开始。

2021-09-10 09:10:34 1.42MB 深度强化学习

1

深度后续强化学习-遥感数字图像处理:原理与方法

与抽象状态相关联．这种关联性信息可以产生对应问题的学习技巧（也称为Ｏｐｔｉｏｎ）．例如，在著名的出租车问题中［８７］，其中的一组抽象状态是出租车起始和乘客所处的位置，那么此时Ｏｐｔｉｏｎ就是从出租车起始位置到乘客所处位置的一系列动作组合．很明显，生成的Ｏｐｔｉｏｎ相当于ｈ－ＤＱＮ模型中设定的中间目标，省去了复杂的人工设定中间目标的过程，并使得学习到的Ｏｐｔｉｏｎ与具体的学习任务无关．因此在相同的状态空间下，该模型具有很强的泛化性．６．３　深度后续强化学习一般地，在只给定原始输入观察和奖赏值的情况下，通过基于模型（ｍｏｄｅｌ－ｂａｓｅｄ）或者模型无关（ｍｏｄｅｌ－ｆｒｅｅ）的ＤＲＬ算法可以学习到鲁棒的值函数．后续状态表示法（Ｓｕｃｃｅｓｓｏｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ＳＲ）为学习值函数提供了第３种选择．ＳＲ将值函数分解为两个部分：后续状态映射图（ｓｕｃｃｅｓｓｏｒ　ｍａｐ）和立即奖赏指示器（ｒｅｗａｒｄ　ｐｒｅｄｉｃｔｏｒ）．后续状态映射图表示在给定当前状态下到达未来某一状态占有率的期望．立即奖赏指示器表示从状态到奖赏值的映射．在ＳＲ中，这两个部分以内积的形式构成值函数．基于上述理论知识，Ｋｕｌｋａｒｎｉ等人［８８］将ＳＲ的应用范围扩展到大规模状态空间的ＤＲＬ问题中，提出了深度后续强化学习（Ｄｅｅｐ　Ｓｕｃｃｅｓｓｏｒ　ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＳＲＬ）．２１计　　算　　机　　学　　报２０１８年

2021-09-09 18:06:07 2.94MB 人工智能; 深度学习; 强化学习; 深度强化学习;

1

用深度强化学习玩雅达利-------汇总

2021-09-01 09:13:45 60KB 神经网络

1

基于视觉注意机制深度强化学习的行人检测方法.pdf

2021-08-31 18:03:03 6.11MB 互联网 资料

基于DQN深度强化学习算法的水下机器人姿态控制python代码.rar

DQN深度强化学习算法, 水下机器人姿态控制, python代码

2021-08-29 20:03:04 10KB DQN python代码 姿态控制

基于A2C深度强化学习算法的水下机器人姿态控制python代码.rar

A2C深度强化学习算法, 姿态控制, python代码

2021-08-29 20:03:03 10KB A2C深度强化学习 姿态控制 python代码

强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码

深度强化学习算法该存储库将使用PyTorch实现经典的深度强化学习算法。该存储库的目的是为人们提供清晰的代码，以供他们学习深度强化学习算法。将来，将添加更多算法，并且还将保留现有代码。当前实施深度Q学习网络（DQN）基本DQN 双Q网络决斗网络架构深度确定性策略梯度（DDPG）优势演员评判（A2C）信任区域策略梯度（TRPO）近端政策优化（PPO）使用克罗内克因素信任区域（ACKTR）的演员评论家软演员评论（SAC）更新信息 :triangular_flag: 2018年10月17日-在此更新中，大多数算法已得到改进，并添加了更多关于图的实验（DPPG除外）。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定，可以得到更好的结果！ :triangular_flag: 2019-07-15-在此更新中，不再需要为openai基准安装。我在rl__utils模块中集成了有用的功能。 DDPG也重新实现，并支持更多结果。自述文件已被修改。代码结构也有微小的调整。 :triangular_flag: 201

2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird

1

David Silver强化学习课程学习笔记中文

David Silver的强化学习基本上算是强化学习的入门视频，学习强化学习的人必看。这是David Silver强化学习课程学习笔记，除了视频里的内容，每一章节末尾附加了练习，便于实现和理解算法

2021-08-23 15:06:15 3.56MB RL 强化学习 深度强化学习 David

1

个人信息

热门下载

最新下载

其他资源