tsp matlab代码使用深度强化学习方法和注意力模型来解决多目标TSP。 该代码是具有四维输入(欧几里得类型)的模型。 具有三维输入的模型(混合类型)在RL_3static_MOTSP.zip中。 本文中用于可视化和比较的Matlab代码位于MOTSP_compare_EMO.zip中。 在tsp_transfer _... dirs中可以找到经过训练的模型。 要测试模型,请使用Post_process目录中的load_all_rewards。 要训​​练模型,请运行train_motsp_transfer.py 为了可视化获得的帕累托阵线,应使用Matlab对结果进行可视化。 Matlab代码位于.zip文件中。 它位于“ MOTSP_compare_EMO / Problems / Combinatorial MOPs / compare.m”中。 用于批量生成数字。 首先,您需要运行train_motsp_transfer.py来训练模型。 运行load_all_rewards.py以加载和测试模型。 还将获得的Pareto Front转换为.mat文件 运行Matlab代码
2021-11-08 15:58:24 158.13MB 系统开源
1
针对金融组合管理问题的深度强化学习框架 该存储库介绍了在哥伦比亚大学的背景下实现的项目中我们的工作。 这个深度政策网络强化学习项目是我们对原始论文实施和进一步研究 。 目标:问题是自动化投资组合管理的一个问题:给定一组股票,如何在一定数量的时间步长结束时最佳地通过时间分配资金以最大化回报。 通过这种方式,我们的目标是建立一个自动代理,以最佳地在不同股票之间分配其投资权重。 数据:姜等。 使用Poloniex交易所的13种加密货币。 他们考虑了每分钟的开盘价,最高价,最低价,收盘价(OHLC)。 它们使投资组合每30分钟重新平衡一次。 他们重新处理数据并基于最近的50个时间步创建张量。 我们使用每日数据和每日重新平衡的日内数据框架将实验扩展到股票市场。 该项目分为三个部分: 数据预处理 环境设置 深度政策网络设计 代理商的培训和测试 这些文件是: data_pipe.ipynb
2021-11-06 16:58:31 15.03MB JupyterNotebook
1
内容包含注意力机制和强化学习两部分,组会汇报所用,便于理解
2021-11-03 20:08:29 1.18MB Attention RL
1
具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
基于VC 、MATLAB和EXCEL对RL暂态电路的数值分析.pdf
pytorch-LunarLander OpenAI Gym中针对LunarLander-v2环境的不同Deep RL算法的PyTorch实现 我们实施了3种不同的RL算法来解决LunarLander-v2环境: 模仿学习 加强 优势-演员-批评(A2C) 注意:模仿学习是在Keras中实现的,另外两种算法是在PyTorch中实现的 指示: 安装所有依赖项 克隆仓库 运行以下命令: 3.1)python imitation.py 3.2)python reinforce.py 3.3)python a2c.py
2021-10-26 18:58:14 14KB Python
1
matlab 绘图的形状代码 Q学习的 Matlab 实现 本项目是基于迷宫环境. 与最短路径算法不同, Q学习算法使agent能够通过与环境交互(采取四个方向的动作), 计算从给定的起点到固定的终点的最短路径. 文件结构 readMaze.m: 读取迷宫数据, 目前存储为矩阵的形式 q_learning.m: Q学习的核心算法 plotMaze.m: 绘制平均路径, 地图和各个点的最佳方向 actions.m: 定义动作空间 plotQ.m: 单独保存某一次迭代的Q矩阵图像, 默认保存为目录下的images文件夹 main.m: 执行主要功能 说明 如果需要修改起始点, 并绘制相关的路径, 可以在main.m运行完q_learning函数之后, 修改start并运行 start = [2,3]; plotMaze(OM, Q, HA, HP, start, dest, seed, gamma, alpha,epsilon,lambda); 代码即可绘制其他起点的图像. 结果 输出的Q值矩阵(迭代1000次): 各个状态的采取的最优的行为: 最优的路径: 平均的回报: 需求 基于 Ma
2021-10-22 19:04:07 135KB 系统开源
1
共视控制 Covid Control是一种免费且可评估的机器学习模型,可预测Covid19日案例(7天移动平均值)的未来数量。 使用LSTM和强化学习对非药物干预(NPI)进行量化。 利用机器学习挽救人类史无前例的全球健康能效新型冠状病毒(COVID-19)的生命,以帮助拉平曲线。 开发数据驱动的AI系统以预测感染率并制定区域政府,社区和组织可以实施的干预计划(IP)。 当国家重新开放经济和社会时,干预计划可以减少感染病例,最大程度地减少负面经济影响,并带来更好的结果。 动机:Covid19大流行React 3Blue1Brown的“指数增长和流行病” Covid19视频: 目标是开发一种机器学习模型,以预测未来全球Covid案例的数量: Part1预测器:LSTM长短期记忆预测器模型 使用LSTM长短期记忆以最高的准确性估算未来每天发生的COVID-19病例数,并开发了一种预测器模型
2021-10-18 21:13:45 24.65MB medical lstm lstm-model modelling
1
路由 基于强化学习与 MIND 控制器接口的 sdn 路由。 需要 RYU 依赖项。
2021-10-11 15:40:37 12KB Python
1
使用Keras-RL和Mesa进行深度强化学习 文献资料 Keras-RL: : 梅萨(Mesa): : 安装 git clone git@github.com:eescriba/mesa-keras-rl.git cd mesa-keras-rl pip install pipenv pipenv install 跑步 mesa runserver [env_run_path]
2021-10-08 22:34:39 621KB JupyterNotebook
1