具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
Tensorflow中的指针网络 TensorFlow实现。 支持多线程数据管道以减少I / O延迟。 要求 Python 2.7 用法 训练模型: $ python main.py --task=tsp --max_data_length=20 --hidden_dim=512 # download dataset used in the paper $ python main.py --task=tsp --max_data_length=10 --hidden_dim=128 # generate dataset itself 训练模型: $ python main.py $
1
深度排序 学习使用seq2seq模型对数字进行排序。 运行这段代码 调用pip install -r requirements.txt安装所有依赖项。 产生资料 可以使用所有数据 样品电话 python generate.py \ --name="train" \ --size=10000 \ --max_val=256 \ --min_length=2 \ --max_length=256 \ 训练 可以通过在设置适当的参数,然后将train.run()设置为在调用,最后一次调用python main.py (是的,我很抱歉,对于未配置命令行参数)。 从上面的示例调用生成的数据集中训练了1个纪元,大约花费了10分钟。 评估 在train.txt上训练模型后,使用生成测试集( name="test" ),然后以与上所述相同的方式运行 ,以查看该模型的一些示例评估。 再
1