具有Deep RL的TSP解算器
这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ]
指针网络是Vinyals等人提出的模型架构。 2015 [ ]
该模型使用注意力机制来输出输入索引的排列。
在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。
在没有监督解决方案的情况下进行培训
在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。
给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。
影评人
Actor
1