递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的 A GV 调度系统需要实时动态的调度方法, 而具有M axQ 递阶强化学习能力的多智能体通过高效的强化 学习方法和协作, 可以实现A GV 的实时调度。仿真实验证明了这种方法的有效性。