提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.
针对一类具有输入及状态未建模动态的非线性系统, 设计K滤波器来估计系统不可量测状态, 基于动态面控制技术并利用径向基函数神经网络的逼近能力, 提出一种输出反馈自适应跟踪控制方案. 利用Nussbaum 函数性质, 有效地解决了高频增益符号未知问题. 在控制器设计中引入规范化信号来约束输入未建模动态, 从而有效地抑制其产生的扰动. 通过理论分析证明了闭环控制系统是半全局一致终结有界的.