为了求解有限时域最优控制问题, 自适应动态规划(ADP) 算法要求受控系统能一步控制到零. 针对不能一步控制到零的非线性系统, 提出一种改进的ADP 算法, 其初始代价函数由任意的有限时间容许序列构造. 推导了算法的迭代过程并证明了算法的收敛性. 当考虑评价网络的近似误差并满足假设条件时, 迭代代价函数将收敛到最优代价函数的有界邻域. 仿真例子验证了所提出方法的有效性.