本文介绍了在线增强Q学习算法,以为未知离散时间线性系统设计H∞跟踪控制器。 构建了由原始系统和命令生成器组成的扩充系统,并引入了折现性能函数,建立了折现博弈代数Riccati方程(GARE)。 提出了GARE解的存在条件,并为折现因子找到了下界,以保证H∞跟踪控制解的稳定性。 然后推导Q函数Bellman方程,在此基础上开发了强化Q学习算法,以在不了解系统动力学的情况下学习H∞跟踪控制问题的解决方案。 提出了状态数据驱动和输出数据驱动的强化Q学习算法来寻找控制策略。 与基于值函数逼近(VFA)的方法不同,事实证明,在满足持久激励(PE)条件的探测噪声下,Q学习方案不会带来Q函数Bellman方程解的偏差,因此,收敛到名义折扣GARE解决方案。 而且,所提出的输出数据驱动方法比状态数据驱动方法更强大,因为在实际应用中可能无法完全测量整个系统的状态。 以单相电压源UPS逆变器为例,验证了所提出的Q学习算法的有效性。
2022-02-20 16:36:53 1.3MB Data driven optimal control
1
离散控制Matlab代码线性离散系统的最优控制 :stopwatch: 用数学模型和MATLAB解决线性离散系统的最优控制 如何使用 您可以在以下位置查看此项目 :seedling: 我们的代码位于“ MATLAB_CODE”文件夹中。 关键字词 QLDR,内点法,DP 贡献者 本文由我们的四人小组撰写。
2022-01-22 16:59:37 2.55MB 系统开源
1
Dynamic programming and optimal control Volume 1
2022-01-15 21:14:04 6.33MB Dynamic programming and optimal
1
ADiGator,用于提高 GPOPS-II 的计算效率和可靠性。GPOPS-II: In addition to the original sparse finite-differencing method, the user now has the choice of generating derivative source code using the opensource automatic differentiation software ADiGator. (written by Matthew J. Weinstein and available at http://sourceforge.net/projects/adigator).
2022-01-07 11:16:30 1.94MB optimal  control
1
文献资料 建立状态 覆盖范围 SDDP.jl是一个使用随机双重动态规划解决大型多阶段凸随机规划问题的软件包。 您可以在找到文档。 如果需要帮助,请提交Github问题: :
1
英文版的,动态规划与最优控制。作者:Bertsekas
2021-12-06 06:28:42 13.25MB Dynamic Programming Optimal Control
1
OPTIMAL CONTROL SYSTEMS
2021-12-01 16:17:10 13.94MB OPTIMAL CONTROL SYSTEMS
1
要运行的文件:mainproc.m 控制向量参数化,也称为直接序列法, 是求解最优控制问题的直接优化方法之一。 直接优化方法的基本思想是将控制问题离散化,然后将非线性规划 (NLP) 技术应用于最终的有限维优化问题。 问题是您希望从时间 $t = 0$ 的 $A=(0,0)$ 转向接近时间 T 的 $B=(4,4)$ 点。运动发生在 $ x_1, x_2$ 平面。 您的控制变量是推力 $u$ 和推力角 $\theta$。 角度 $\theta$ 是从 $x_1$ 轴测量的。 为了让生活变得有趣,在 (3,0) 处有一个大质量,它施加的力与您与质量的距离的平方的倒数成正比。 (详情见发布代码) *问题来自NCSU的“最优控制”课程(由Stephen Campbell博士主持)。
2021-11-28 16:15:24 99KB matlab
1
Bertsekas - Dynamic Programming and Optimal Control Vol I
2021-11-02 22:35:19 43.8MB Dynamic Programming
1
经典动态规划教材,影印版,错误较少。可作为入门书籍阅读。
2021-10-21 10:16:03 6.33MB Dynamic Programming Bertsekas
1