基础论文(发表在《应用软计算》杂志上): Mathew Mithra Noel, B. Jaganatha Pandian,使用基于新人工神经网络的强化学习方法控制非线性液位系统, 应用软计算,第 23 卷,2014 年,第 444-451 页,ISSN 1568-4946, https: //doi.org/10.1016/j.asoc.2014.06.037。 ( http://www.sciencedirect.com/science/article/pii/S1568494614003111 ) 代码演示了复杂非线性系统的 RL 控制。 相互作用的双罐液位系统的状态空间模型可以被不同系统的状态空间模型代替,并且可以调整相同的代码来控制其他非线性系统。 大多数工业过程都表现出固有的非线性特征。 因此,使用线性化模型的经典控制策略在实现最优控制方面是无效的。 在本文中,提出了一
2021-12-27 14:33:56 4KB matlab
1
RL价值函数的近似(yeqiang)
2021-12-26 22:08:57 1.65MB 强化学习 卷积神经网络 深度学习
1
讨论了如何由 SISO 线性系统经非线性反馈构造混沌系统,给出了此类混沌系统采用单变量信 号实现同步的控制策略,通过梯度下降法减少在带有噪声驱动信号下系统同步的多步误差均方差, 得到 最优耦合参数。数字仿真表明了理论分析的正确性。
1
A practical guide to mastering reinforcement learning algorithms using Keras Key Features: Build projects across robotics, gaming, and finance fields, putting reinforcement learning (RL) into action; Get to grips with Keras and practice on real-world unstructured datasets; Uncover advanced deep learning algorithms such as Monte Carlo, Markov Decision, and Q-learning.
2021-12-26 15:48:39 17.95MB Keras 强化学习 RL Reinforcement
1
The codes of paper "Long Text Generation via Adversarial Training with Leaked Information" on AAAI 2018. Text generation using GAN and hierarchical reinforcement learning.
2021-12-26 02:10:57 12.23MB Python开发-机器学习
1
这篇论文讲述了将差分隐私应用到强化学习中,并通过实验验证该方法具有一定的可行性。对应版本的ppt在下载资源中。
2021-12-24 16:11:34 796KB 强化学习 差分隐私
1
最优控制与最优化方法
2021-12-24 15:39:58 3.73MB 最优控制
1
强化学习范式原则上允许复杂行为 直接从简单的奖励信号中学习。然而,在实践中,情况确实如此 常见的手工设计奖励功能,以鼓励特定的 解决方案,或从演示数据中导出。本文探讨了如何丰富 环境有助于促进复杂行为的学习。明确地 我们在不同的环境环境中培训代理人,并发现这鼓励了他们 在一系列任务中表现良好的稳健行为的出现。 我们为运动演示了这一原则——众所周知的行为 他们对奖励选择的敏感度。我们在一个平台上训练几个模拟物体 使用一个简单的奖励功能,可以设置各种具有挑战性的地形和障碍 基于向前的进展。使用一种新的可伸缩策略梯度变体 强化学习,我们的特工可以根据需要学习跑、跳、蹲和转身 在没有明确的基于奖励的指导的环境下。对……的视觉描绘 学习行为的要点可以在本视频中查看。
2021-12-24 12:08:07 2.23MB 深度学习 强化学习 机器人 运动控制
1
极小值原理与经典变分法的区别: 容许控制条件放宽。极小值条件对通常的控制约束均适用。 最优控制使哈密顿函数取全局极小值。当满足经典变分法的应用条件时,其极值条件是极小值原理中极值条件的特例。 极小值原理不要求哈密顿函数对控制向量的可微性。
2021-12-23 22:25:38 2.68MB ppt
1
Optimal Control 允许您将控制问题(控制理论)表述为数学优化问题。 OpenOCL 提供了一种有助于实现最优控制问题的建模语言。 它实现了直接搭配方法,并接口 CasADi 和 ipopt 来解决非线性程序。 或者,可以使用新的(正在进行的)acados 界面。 特征: - 通过 CasADi 自动区分- 多阶段问题- 矩阵值变量- 按名称访问所有变量(无需索引) - 绘制初始猜测、中间步骤和解决方案-依赖项(acados,CasADi)将在首次启动时自动解决 主要开发商: 乔纳斯·科内曼, https://github.com/jkoendev 版权所有 2019, 2020 Jonas Koenemann, Moritz Diehl, 弗莱堡大学根据3条款BSD许可条款,允许重新分发。 请确保上述版权声明在任何衍生作品中可见 https://openocl.gith
2021-12-23 22:16:30 146KB matlab
1