tsp matlab代码使用深度强化学习方法和注意力模型来解决多目标TSP。 该代码是具有四维输入(欧几里得类型)的模型。 具有三维输入的模型(混合类型)在RL_3static_MOTSP.zip中。 本文中用于可视化和比较的Matlab代码位于MOTSP_compare_EMO.zip中。 在tsp_transfer _... dirs中可以找到经过训练的模型。 要测试模型,请使用Post_process目录中的load_all_rewards。 要训​​练模型,请运行train_motsp_transfer.py 为了可视化获得的帕累托阵线,应使用Matlab对结果进行可视化。 Matlab代码位于.zip文件中。 它位于“ MOTSP_compare_EMO / Problems / Combinatorial MOPs / compare.m”中。 用于批量生成数字。 首先,您需要运行train_motsp_transfer.py来训练模型。 运行load_all_rewards.py以加载和测试模型。 还将获得的Pareto Front转换为.mat文件 运行Matlab代码
2021-11-08 15:58:24 158.13MB 系统开源
1
Richard S. Sutton, Andrew G. Barto-Reinforcement Learning_ An Introduction-MIT Press (1998)高清版经典教材
2021-11-08 15:43:52 2.39MB 强化学习 经典教材
1
ml-in-action:出版书籍《机器学习入门到实践——MATLAB实践应用》一书中的实例程序。涉及监督学习,非监督学习和强化学习。(本书的代码“ MATLAB中的机器学习简介与操作” ”)
1
文件中包含了强化学习精要的代码,学习强化学习精要必须拥有,同时还包含了deepmind团队davidsilver公开课PPT,供大家学习。
2021-11-07 15:57:25 33KB Reinforcemen DavidSilver ML
1
不同边界情况下的横截条件
2021-11-06 21:27:34 2.68MB ppt
1
深度强化学习以实现动态组合管理 STAT 461课程项目 张克南 该存储库是提出的用于动态投资组合管理的强化学习模型的实现 。 动机 动态投资组合管理描述了根据股票价格顺序分配资产集合以最大化长期收益的过程。 从本质上讲,它属于强化学习的名声,代理商通过与环境互动来学习最佳策略。 因此,我们可以将投资组合的重新分配视为“行动”,将股票市场视为“环境”,将立即的投资回报视为“回报”。 问题陈述 考虑一个由m个资产和现金组成的投资组合。 我们使用向量w表示每项资产的权重,因此权重之和等于1。假设最后一次重新分配后的权重为w t-1 ,则在当前时间步结束时,权重转移到w ' t由于股票价格变动。 然后,我们需要重新分配投资组合,以使权重等于w t 。 MDP框架 与其他强化学习模型相同,我们需要首先将动态投资组合优化问题表述为马尔可夫决策过程(MDP)。 状态S T:标准化价格的历史很短。 考
2021-11-06 16:36:30 6.09MB JupyterNotebook
1
matlab五子棋代码 awesome-reinforcement-learning 强化学习的相关学习资源、链接 网址教程资源 教程网址 Book Video Course ; ; ; ; ; 博客网址 领域专家 Awesome Algorithm Repos 强化学习实战资源 Implementation of Algorithms Project []; 论文 (Deep Q-Networks ): Mnih et al, 2013 (Deep Q-Network ); Mnih et al, 2015 (Double Q Network) : Hasselt et al, 2015 (Duling Q Network) : Ziyu Wang et al, 2015 (Quantile Regression DQN): Dabney et al, 2017 (Mastering the game of Go with deep neural networks and tree search) (Mastering Chess and Shogi by Self-Play) :S
2021-11-05 23:55:17 275.71MB 系统开源
1
Snopt项目 在 MatLab 中的 Snopt 中实现的最优控制问题 该目录中包含使用非线性求解器 SNOPT 的 MatLab 接口数值求解的各种优化控制问题。 这些项目将在 SNOPT 的学生/试用版上运行,可从获得 此目录中包含的项目: 快时线:这里 Snopt 用于在与粒子速度成正比的阻力影响下以数值方式求解快时线问题。 给出了各种实现,即展示了 Jacobian 的显式计算(关于约束的决策变量)以增加对最优解的收敛,以及 Jacobian 的稀疏模式的计算。 类似地,给出了 Snopt 计算雅可比矩阵的版本; 比较两者显示了运行时的数量级。 每个都包括对 Snopt 返回的解决方案的可行性分析。 可行性分析是验证和验证数值求解器(在本例中为 SNOPT)是否确实找到了最佳解决方案的关键组件。
2021-11-05 10:41:43 30KB MATLAB
1
通俗易懂,讲解很好,易理解,案例明确,过程清晰,很实用。
2021-11-04 19:07:21 1.85MB 变分法 最优控制 应用
1
迷宫 当我回顾我在上所做的一些工作时,我开始了这个小。 该项目将相同的强化学习 (RL) 概念应用于迷宫学习,因为求解器试图找到从迷宫左上角到右下角的最短路径。 虽然其他算法在解决静态迷宫时会快得多(例如,蛮力方法会更快),但这种解决算法以其如何存储其状态和适应不断变化的环境的能力而著称。 求解器的“知识”由与位置决策对相关联的值表示。 对于迷宫中的每个位置,求解器可以进行一次或多次移动以在迷宫中前进。 每次移动后,求解器都会获得奖励(或在这种情况下为惩罚-稍后会更多)。 然后,考虑到奖励以及从新位置开始的最佳移动,求解器通过更新其位置决策值来评估其最后一个决策。 例如,假设我们有一个位于位置1的求解器,并且有两个可能的移动距离:移动a和b 。 假设经过一些学习,求解器更新了这些移动的相对值,使得a的值为 -1, b的值为 2。(注意:这些值仅意味着b是比a更好的选择。一个可能还会考
2021-11-04 16:12:04 27KB JavaScript
1