具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
参考 4.1, Reinforcement learning: An Introduction, RS Sutton, AG Barto, MIT press 值迭代: 求解有限 MDP 的动态规划算法。 策略评估是指(通常)对给定策略的价值函数进行迭代计算。 策略改进是指在给定该策略的价值函数的情况下计算改进的策略。 将这两个计算放在一起,我们得到策略迭代和值迭代,这两种最流行的 DP 方法。 给定 MDP 的完整知识,这些中的任何一个都可以用于可靠地计算有限 MDP 的最佳策略和价值函数。 ◮问题:找到最优策略π ◮ 解决方案:贝尔曼最优备份的迭代应用◮ v1 → v2 → ... → v∗ ◮ 使用同步备份,在每次迭代 k + 1 对于所有状态 s ∈ S :从 v_{k}(s') 更新 v_{k+1}(s) ◮ 收敛到 v∗ 稍后会证明◮ 与策略迭代不同,没有明确的策略◮ 中值
2021-11-02 10:38:37 29KB matlab
1
分析简化了线电压补偿型三相三线动态电压恢复器(DVR)的拓扑结构,提出了基于控制方程最优解的DVR最优化控制方法。基于数字锁相的方法检测得到补偿电压,分析推导了DVR电压控制的时域电路方程,求得了电压控制方程在最优化指标下的最优解。该方法基于DVR输出的线电压计算开关时间,减少了计算和转换环节,提高了直流侧电压的利用率和DVR的补偿能力。仿真和实验结果证明了所提控制方法的正确性和可行性。
1
基于option的强化学习方法架构,option-critic,自主学习选项策略
2021-11-01 19:43:57 1.01MB 分层强化学习 option学习
1
用于交通信号控制的Deep Q学习代理 深入的Q-Learning强化学习代理尝试在交叉路口选择正确的交通信号灯相位以最大化交通效率的框架。 我已将其上传到此处,以帮助任何人寻找通过SUMO进行深度强化学习的良好起点。 这段代码是从我的硕士论文中提取的,它代表了我的论文工作所用代码的简化版本。 我希望您可以找到此存储库对您的项目有用。 入门 这些说明将为您提供在本地计算机上运行的项目的副本。 我认为,以下是最简单的步骤,以便以最少的工作量从头开始运行算法。 强烈建议使用配备NVIDIA GPU的计算机。 下载Anaconda()并安装。 下载SUMO( )并安装。 按照简短指南正确正确地安装tensorflow-gpu,不会出现问题。 简而言之,该指南告诉您打开Anaconda Prompt或任何终端,然后键入以下命令: conda create --name tf_gpu ac
1
鲁棒与最优控制(电子书) 学习鲁棒控制和最优控制的最佳电子书
2021-10-31 13:36:50 7.63MB 鲁棒 最优控制 电子书
1
基于强化学习的无线传感器网络路由协议研究 现有的临时路由协议基于节点之间链接的离散双峰模型:链接存在或断开。该模型通常仅将最新传输视为确定链路状态。不幸的是,该模型无法将由于干扰或拥塞而失败的传输与由于目标超出传输范围而失败的传输区分开。本文提出了一种基于连续(而不是离散)模型的网络中新的自组织路由协议。我们使用链接性能随时间的统计量度来表示链接的质量。 我们建议,这样的模型对于现实无线网络中的有效操作是必需的。 为了在具有可变质量链接的网络中定义最佳路由,我们将自组织路由建模为协作式强化学习问题。协作式强化学习描述了机器学习中的一类问题,其中代理试图通过反复试验和信息共享来优化其与动态环境的交互。我们为路由分配一个值,该值代表使用该路由的座席成本。因此,临时路由问题表示为路由值的优化。 我们的链接质量模型是一种统计模型,需要随着时间的推移收集数据。我们设计了一种学习策略,可收集有关可用路线及其链接质量的信息。该学习策略按需运行,仅针对正在使用的业务流收集信息,并与这些业务流的流量成比例地收集信息。该学习以在线方式完成:路由发现与数据包传递同时进行。 我们的学习策略大致基于群体智能的工作:那些设计受社会昆虫行为模型启发的系统。尤其是,我们将蚁群优化元启发式算法作为自组织路由学习问题的学习策略。在我们的协议中,协议路由的每个数据包都会导致网络路由策略的增量更改。我们发现,链路质量的连续模型在拥塞的多跳网络中非常有用。 双峰链路模型会将任何丢弃的数据包解释为指示节点移动性并触发整个网络的路由更新,而基于连续模型的路由协议则可以通过逐步调整其路由行为来响应丢弃的数据包。在NS-2中模拟的拥塞网络场景中,我们的协议在数据包传输率和路由流量方面的性能被发现优于AODV或DSR。
1
开放式最优控制库是Matlab / Octave中的软件框架,用于对最优控制问题进行建模。 它使用自动微分和快速非线性规划求解器。 它实现直接方法。 在后端,它使用CasADi和ipopt。
2021-10-30 20:56:25 67KB 开源软件
1
伴随方程 边界条件 控制方程 解:引进伴随变量 ,构造哈米顿函数
2021-10-30 18:24:01 2.4MB 最优控制理论
1
最优控制理论与应用 谢学书 清华大学 最优控制理论的经典教材
2021-10-29 15:09:49 10.61MB 最优控制理论与应用 谢学书
1