近年来, 在基于Q学习算法的作业车间动态调度系统中, 状态-行动和奖励值靠人为主观设定, 导致学习效果不理想, 与已知最优解相比, 结果偏差较大. 为此, 基于作业车间调度问题的特质, 对Q学习算法的要素进行重新设计, 并用标准算例库进行仿真测试. 将结果先与已知最优解和混合灰狼优化算法、离散布谷鸟算法和量子鲸鱼群算法在近似程度、最小值方面进行比较分析. 实验结果表明, 与国内求解作业车间调度问题的Q学习算法相比, 该方法在最优解的近似程度上显著提升, 与群智能算法相比, 在大多数算例中, 寻优能力方面有显著提升.
1