我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多 任务算法可以“端到端”学习策略:直接从原始像素输入。
2021-12-29 13:02:26 668KB 深度学习 强化学习 机器人 运动控制
1
强化学习范式原则上允许复杂行为 直接从简单的奖励信号中学习。然而,在实践中,情况确实如此 常见的手工设计奖励功能,以鼓励特定的 解决方案,或从演示数据中导出。本文探讨了如何丰富 环境有助于促进复杂行为的学习。明确地 我们在不同的环境环境中培训代理人,并发现这鼓励了他们 在一系列任务中表现良好的稳健行为的出现。 我们为运动演示了这一原则——众所周知的行为 他们对奖励选择的敏感度。我们在一个平台上训练几个模拟物体 使用一个简单的奖励功能,可以设置各种具有挑战性的地形和障碍 基于向前的进展。使用一种新的可伸缩策略梯度变体 强化学习,我们的特工可以根据需要学习跑、跳、蹲和转身 在没有明确的基于奖励的指导的环境下。对……的视觉描绘 学习行为的要点可以在本视频中查看。
2021-12-24 12:08:07 2.23MB 深度学习 强化学习 机器人 运动控制
1
与抽象状态相关联.这种关联性信息可以产生对应 问题的学习 技 巧(也 称 为 Option).例 如,在 著 名 的 出租车问题中[87],其中的一组抽象状态是出租车起 始和乘客所处的位置,那么此时Option就是从出租 车起始位置到乘客所处位置的一系列动作组合.很 明显,生成的Option相当于h-DQN模型中设定的 中间目标,省去了复杂的人工设定中间目标的过程, 并使得学习到的Option与具体的学习任务无关.因 此在相同的状态空间下,该模型具有很强的泛化性. 6.3 深度后续强化学习 一般地,在 只 给 定 原 始 输 入 观 察 和 奖 赏 值 的 情况下,通 过 基 于 模 型(model-based)或 者 模 型 无 关(model-free)的DRL算 法 可 以 学 习 到 鲁 棒 的 值 函数.后 续 状 态 表 示 法(Successor Representation, SR)为学习值函数提供了第3种选择.SR将值函数 分解为两个部分:后续状态映射图(successor map) 和立即奖赏指示器(reward predictor).后续状态映 射图表示在给定当前状态下到达未来某一状态占有 率的期望.立即奖赏指示器表示从状态到奖赏值的 映射.在SR中,这两个部分以内积的形式构成值函 数.基于上述理论知识,Kulkarni等人[88]将SR的应 用范围扩展到大规模状态空间的DRL问题中,提出 了深度后续强化学习(Deep Successor Reinforcement Learning,DSRL). 21 计  算  机  学  报 2018年
1
包含ANN、SVM、强化学习等知识点,不同知识点分别单独一个ppt课件文件
2021-08-20 09:19:53 104.87MB 机器学习 深度学习 强化学习
OpenAI的Spinning UP(https://spinningup.openai.com/en/latest/spinningup/keypapers.html)对于入门深度强化学习是很好的资料,其中推荐了105篇非常经典的论文,这对于想要从事深度强化学习研究的初学者来说极具参考意义。 本人花了一点时间把所有论文下载并按照网页上的分类整理了下来。
2021-08-10 09:11:10 285.08MB 深度学习 强化学习 spinninup openai
1
深度强化学习课程的高清课间资源,对于学习深度学习以及强化学习理论的研究人士很有帮助
2021-07-07 10:18:39 159.03MB 深度学习 强化学习
1
这个是安徽省的博弈大赛爱恩斯坦棋项目的深度学习代码,可以运行和使用,希望能帮助大家更好的进行比赛!!!
1
文献翻译,格式做的比较认真,公式图片都做了翻译,格式符合规范。适用于作业,课设,毕设文献翻译
2021-06-11 13:10:43 696KB 翻译 DQN 深度学习 强化学习
1
强化学习实战系列(2020最新)视频教程分享,完整版,附源码+数据集,百度网盘下载,希望大家喜欢
2021-04-25 19:09:22 313B 深度学习 强化学习
1
强化学习实战系列(2020最新),完整版11章,2020年最新课程 强化学习系列课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。
2021-04-13 14:08:28 710B 深度学习 强化学习 人工智能
1