本文介绍了在线增强Q学习算法,以为未知离散时间线性系统设计H∞跟踪控制器。 构建了由原始系统和命令生成器组成的扩充系统,并引入了折现性能函数,建立了折现博弈代数Riccati方程(GARE)。 提出了GARE解的存在条件,并为折现因子找到了下界,以保证H∞跟踪控制解的稳定性。 然后推导Q函数Bellman方程,在此基础上开发了强化Q学习算法,以在不了解系统动力学的情况下学习H∞跟踪控制问题的解决方案。 提出了状态数据驱动和输出数据驱动的强化Q学习算法来寻找控制策略。 与基于值函数逼近(VFA)的方法不同,事实证明,在满足持久激励(PE)条件的探测噪声下,Q学习方案不会带来Q函数Bellman方程解的偏差,因此,收敛到名义折扣GARE解决方案。 而且,所提出的输出数据驱动方法比状态数据驱动方法更强大,因为在实际应用中可能无法完全测量整个系统的状态。 以单相电压源UPS逆变器为例,验证了所提出的Q学习算法的有效性。
1