俄罗斯方块 使用深度强化学习的机器人。 演示版 经过一些训练后,首先获得10000分。 它是如何工作的 强化学习 首先,代理将进行随机移动,将状态和给定的奖励保存在有限的队列(重播内存)中。 在每个情节(游戏)结束时,代理将使用重播内存的随机样本来训练自己(使用神经网络)。 随着玩越来越多的游戏,代理变得越来越聪明,得分越来越高。 由于在强化学习中,一旦特工发现了良好的“路径”,它就会坚持下去,因此它也被视为探索变量(随时间而减小),因此特工有时会选择一种随机动作,而不是它认为最佳的动作。 。 这样,它可以发现新的“路径”以获得更高的分数。 训练 培训基于。 相反,只使用所获得的当前状态,并奖励对网络进行训练的,它是用来Q学习(即认为从当前状态到未来的一个过渡),以找出什么是考虑到所有给定状态的最佳成绩未来的回报,即算法不是贪婪的。 这使代理可以采取一些可能无法立即获得回报的举动,因此以
1
北京化工大学最优控制参数整定方法
2021-06-17 13:27:26 1KB PID参数整定 最优控制
1
强化学习课件,强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) [1] ,以及主动强化学习(active RL)和被动强化学习(passive RL) [2] 。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习
2021-06-16 19:57:17 75.49MB 强化学习
1
本文的仿真验证充分地将理论和实际结合,设计和调试的控制律和参数准确可靠,可以作为实际系统的调试参考。如果控制信号过大,则要考虑对控制限幅,实际应用中尤其是在工业控制领域要考虑控制器的阀门的量程限额。本二次型最优控制器能较好地对该倒立摆系统进行控制,达到了较好的控制效果。这也说明了系统的线性化处理是有效的,且二次型最优控制具有一定的鲁棒性和稳定性好、算法简单等特点,可以用在实时性要求较高的场合。
2021-06-13 23:12:49 262KB 最优控制 倒立摆 LQR
1
sutton的强化学习第二版的答案
2021-06-12 14:14:53 2.28MB 强化学习
1
文献翻译,格式做的比较认真,公式图片都做了翻译,格式符合规范。适用于作业,课设,毕设文献翻译
2021-06-11 13:10:43 696KB 翻译 DQN 深度学习 强化学习
1
北航三系研究生课程,含作业答案
2021-06-11 09:06:04 17.1MB 课程
1
东北大学的最优控制理论课件 第1章 最优控制问题 第2章 求解最优控制的变分方法 第3章 最大值原理 第4章 动态规划 第5章 线性二次型性能指标的最优控制 第6章 快速控制系统
2021-06-10 23:43:49 2.02MB 最优控制理论 课件
1
基于深度强化学习的无人驾驶车道保持决策的研究_方川.caj
2021-06-10 09:03:10 6.95MB LKA
1
该演示使用发动机节气门建模示例,分享了通过测量输入和输出来创建动态系统非线性模型的一些观点。 它描述了使用 System Identification Toolbox:trade_mark: 处理基于数据的建模任务的有用工作流。 描述了两种建模方法: 1. 黑盒建模:无法从物理考虑推导出系统的精确数学表示的情况; 模型的形式及其系数的值是从数据中提取的。 2. 灰盒建模:与输入和输出变量相关的运动方程已知,但方程中各种物理常数的值未知; 然后数据仅用于查找那些未知数的值。 重点是黑盒建模方法。 结果表明,即使不需要模型结构的先验知识,对系统的性质有一些直觉并使用这种知识来微调模型结构的配置通常是有帮助的。 内容: * 一份名为“发动机节气门动力学的基于数据的建模”的文件 * 用于命令行演示的 MATLAB 文件(参见throttledemo.m)
2021-06-09 19:57:51 3.9MB matlab
1