本文以深度强化学习为基础,设计出一种适用于求解大规模车辆路径问题的模型架
构。采用了预训练模型+基于相对位置的 Transformer网络+A2C强化学习训练框架,为
后续研究大规模车辆路径问题的扩展问题和大规模组合优化问题提供了新的深度强化
学习算法框架。本文中的深度强化学习算法解决了以下问题:
(1) 不同规模算例可以共享并继承其他规模训练完的模型,在这种共享模型的机制下,
避免了算例规模相近的模型的重复训练。
(2) 预训练模型能够继承其他规模训练出的模型经验,相对位置节点提高了在大规模
车辆路径问题中特征抓取的精确性,A2C强化学习训练框架环节采用无监督学习,
在无标签训练集中训练中规避经验回溯问题,这三方面针对大规模车辆路径问题
做出的调整,提高了训练效率和收敛效果。
(3) 通过预训练机制解决了大规模车辆路径问题内存溢出的情况,解决了目前已有算
法在大规模算例训练时,内存溢出训练中断等问题。
(4) 与经典的启发式算法和元启发式算法进行比较,在同等求解速度的算法中,本文
算法的求解质量方面全面超越这些算法。并且在当前已有的深度强化学习解决方
案中,本文设计的算法和效
1