具有Deep RL的TSP解算器 这是具有增强学习功能的神经组合优化的PyTorch实施,Bello等人。 2016 [ ] 指针网络是Vinyals等人提出的模型架构。 2015 [ ] 该模型使用注意力机制来输出输入索引的排列。 在这项工作中,我们将解决旅行商问题(TSP),这是被称为NP-hard的组合优化问题之一。 TSP寻求推销员最短的行程,使他们只能一次访问每个城市。 在没有监督解决方案的情况下进行培训 在训练阶段,此TSP求解器将优化2种不同类型的指针网络,Actor和Critic模型。 给定一个以城市为节点的城市图,评论家模型可以预测预期的旅行时长,通常称为状态值。 当估计行程长度赶上由演员模型预测的行程(城市排列)计算出的实际长度时,评论者模型的参数将得到优化。 Actor模型使用称为好处的值更新其策略参数,该值从实际巡回行程中减去状态值。 影评人 Actor
1
用于交通信号控制的Deep Q学习代理 深入的Q-Learning强化学习代理尝试在交叉路口选择正确的交通信号灯相位以最大化交通效率的框架。 我已将其上传到此处,以帮助任何人寻找通过SUMO进行深度强化学习的良好起点。 这段代码是从我的硕士论文中提取的,它代表了我的论文工作所用代码的简化版本。 我希望您可以找到此存储库对您的项目有用。 入门 这些说明将为您提供在本地计算机上运行的项目的副本。 我认为,以下是最简单的步骤,以便以最少的工作量从头开始运行算法。 强烈建议使用配备NVIDIA GPU的计算机。 下载Anaconda()并安装。 下载SUMO( )并安装。 按照简短指南正确正确地安装tensorflow-gpu,不会出现问题。 简而言之,该指南告诉您打开Anaconda Prompt或任何终端,然后键入以下命令: conda create --name tf_gpu ac
1
使用深度增强学习玩Atari游戏,不错的论文,值得一看,想快下
2021-10-21 08:20:20 472KB AI DRL Atari
1
Deep Reinforcement Learning for Wireless Networks
2021-10-07 10:22:05 2.36MB Deep Reinforceme
1
深度模仿学习的语用观察 模仿学习算法(使用PPO ): 美国广播公司 AIRL 公元前 钻头 童话 盖尔 GMMIL nn-PUGAIL PWIL 红色 python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED] 选项包括: 仅状态模仿学习: --state-only 吸收状态指示器 --absorbing R1梯度正则化 :-- --r1-reg-coeff 1 (默认值) 结果 PPO 火车 测试 航空 火车 测试 公元前 火车 测试 钻头 火车 测试 公平 火车 测试 盖尔 火车 测试 吉米 火车 测试 nn-PUGAIL 火车 测试 红色的 火车 测试 致谢 @ikostrikov ( https://github.com/ikostrikov
1
图 6.19 临界速度法求解流程图 图 6.19 详细描述了临界速度法求解流程和迭代过程,此方法与根轨迹法结合,可得到 较准确的线性临界速度值,从而为线性稳定性分析提供可靠依据。 ���� 非线性临界速度 计算非线性临界速度时,通常对车辆第三个轮对上施加较小的定值初始速度(0.01-), 通过观察车辆在仿真过程中横向振荡是否能够快速收敛来判断。综合上述临界速度的计算结 果,可从一个较高的车速开始试验,如果发生发散现象,则改为较低速度再进行仿真,以此 类推逐步缩小其范围,最终找到非线性临界速度的准确值。 使用 SIMPACK VTL 来进行非线性临界速度的求解可大大简化上述重复操作,与根轨迹 法计算线性临界速度类似,该操作同样需要在内环 p1 设置变参数$p_v_kmh,具体参数为: Number of Variations:11 Type:Wheel-Rail global : v, R0, track, Element ID:04: v_vehicle [km/h] Initial Value:100 Final Value:300 在 Results 中新建$o_y 作为输出变量,其参数为: Type:Joints: State zgp (velocity) Element:$J_WS3_dummy Coordinate:%2 y : Lateral Position [m] 保存并退出。 点击点击 ParVariation---Perform Time Domain---TimeInt+Measurement+SBR Export 进行 求解,点击主窗口 PostProcess---ParVariation Plots--- Time Domain 查看结果。 6.1.66.1.66.1.66.1.6 准静态计算、非线性时域仿真及其他 VTL 变参数优化计算在铁路车辆动力学中除了求解临界速度外,还有着其他广泛的应 用。下面就主要的几个方面进行阐述,旨在为更好的利用 SIMPACK 进行优化设计抛砖引玉。 1111)非线性系统稳定极限环的计算 将内环设置为车辆速度,并从最大速度开始;将外环设置为结构参数,如弹簧刚度;预
2021-10-05 10:49:36 18.28MB simpack
1
强化学习经典 深度强化学习的圣经 有代码 有实现 最好的手工实现代码的书 没有之一 手把手用深度强化学习教你敲代码
2021-09-29 16:58:29 12.61MB 强化学习
1
公用池资源系统中的深度多主体强化学习 中的论文中的实验源代码。 该论文已被接受并发表在IEEE CEC 2019上。 介绍 在复杂的社会生态系统中,具有不同目标的多个代理机构采取的行动会影响系统的长期动态。 共同资产池是此类系统的子集,在这些系统中,财产权通常定义不清,先验性未知,因此造成了社会困境,这是众所周知的公地悲剧反映出来的。 在本文中,我们研究了在公共资源池系统的多主体设置中进行深度强化学习的功效。 我们使用了系统的抽象数学模型,表示为部分可观察到的一般和马尔可夫博弈。 在第一组实验中,独立主体使用具有离散动作空间的深度Q网络来指导决策。 但是,明显的缺点是显而易见的。 因此,在第二组实验中,具有连续状态和动作空间的深度确定性策略梯度学习模型指导了主体学习。 仿真结果表明,使用第二种深度学习模型时,代理商在可持续性和经济目标方面的表现均明显更好。 尽管代理商没有完全的预见力或对他
1
通过TensorTrade进行深度强化外汇学习
2021-09-18 14:28:14 161.19MB HTML
1
Franois-Lavet et la. An Introduction to Deep Reinforcement Learning. Foundations and trends in machine learning, 2018.
2021-08-26 14:12:03 2.46MB reinforcement learning deep learning
1