强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
2024-06-13 17:52:18 930KB 强化学习
1
公共自行车多目标动态调度建模与算法研究
2023-03-03 22:41:45 601KB 研究论文
1
为解决分块并行Cholesky分解过程中各处理器间的负载平衡问题,分析了算法的下三角矩阵特性以及各轮循环和循环内部各步骤基本计算任务之间存在的依赖关系,以各步骤的矩阵块基本计算任务为顶点,任务间的依赖关系为有向边,构造有向无环图,并根据有向无环图的性质建立二级队列,然后利用该队列对就绪任务进行排队,实现任务的动态调度.研究结果表明:在矩阵块数不是非常大的情况下,该算法在时间性能上比传统的分块并行Cholesky分解算法具有明显的优势.
1
近年来, 在基于Q学习算法的作业车间动态调度系统中, 状态-行动和奖励值靠人为主观设定, 导致学习效果不理想, 与已知最优解相比, 结果偏差较大. 为此, 基于作业车间调度问题的特质, 对Q学习算法的要素进行重新设计, 并用标准算例库进行仿真测试. 将结果先与已知最优解和混合灰狼优化算法、离散布谷鸟算法和量子鲸鱼群算法在近似程度、最小值方面进行比较分析. 实验结果表明, 与国内求解作业车间调度问题的Q学习算法相比, 该方法在最优解的近似程度上显著提升, 与群智能算法相比, 在大多数算例中, 寻优能力方面有显著提升.
2022-06-01 00:16:39 1.52MB 智能制造 作业车间调度 Q学习算法
1
两种改进的EDF软实时动态调度算法.doc
2022-05-29 19:07:17 2.51MB 算法 文档资料
<html dir="ltr"><head><title></title></head><body>针对柔性流水车间动态调度求解困难的问题, 首先分析调度问题的特征, 构建问题模型; 然后运用DBR(鼓-
缓冲器-绳子) 理论对问题进行分解简化, 并采用混合重调度策略和启发式算法进行动态调度; 最后建立瓶颈和非瓶
颈资源调度的协调机制, 实现问题求解. 仿真实例表明, 所提出的算法是可行而有效的. </body></html>
2022-05-17 10:40:12 195KB DBR理论|柔性流水车间|动态调度
1
Matlab车间动态调度PSO微粒群算法程序最后输出优化结果和甘特图,matlab2021测试。
2022-05-01 12:05:59 61KB matlab 算法 甘特图 源码软件
第1章 绪 论 1.1选题的目的及意义 1.2国内外研究现状及发展趋势 1.2.1国内外研究现状 1.2.2发展趋势 1.3本文研究内容 第2章 车间调度问题 2.1车间调度问题综述 2.1.1车间调度问题的描述 2.1.2车间调度问题的分类 2.1.3车间调度问题的特点 2.1.4求解车间调度问题的常用方法 2.2柔性流水车间调度问题 2.2.1柔性流水车间调度问题概述 2.2.2柔性流水车间调度问题建模 第3章 遗传算法理论 3.1遗传算法的基本思想 3.2遗传算法的基本概念 3.3遗传算法的特点 3.4遗传算法的改进 3.5遗传算法的操作设计 3.5.1编码方式 3.5.2选择操作 3.5.3交叉操作 3.5.4变异操作 3.6遗传算法的参数设计 第4章 柔性流水车间调度遗传算法设计 4.1编码方式 4.2解码方式 4.3选择方法 4.4交叉方法 4.5变异方法 4.6算法流程设计 第5章 程序实现及仿真分析 5.1问题描述 5.2程序设计 5.2.1种群初始化 5.2.2选择算子 5.2.3交叉算子 ...... 基于遗传算法的柔性流水车间调度设计与实现(论文+源码+答辩ppt
2022-04-30 22:07:22 4.1MB 遗传算法 柔性流水线 论文 源码
2018数学建模国赛A题B题C题D题优秀论文[14篇]: 基于非稳态导热的高温作业专用服装设计.pdf 高温作业专用服装设计.pdf 高温作业专用服装设计2.pdf 高温作业专用服装设计_支撑材料.rar 高温作业服设计.pdf RGV的动态调度优化问题.pdf 基于0-1规划的单RGV 动态调度模型.pdf 基于多原则比较和蒙特卡洛模拟的RGV动态调度模型.pdf 智能 RGV的动态调度策略.pdf -----------------------------------------------
集装箱码头泊位与岸桥联合动态调度,靳志宏,徐奇,针对现行研究中岸桥调度的“静态分配”现状及其现实约束,在泊位调度的基础上加入了动态的岸桥分配,将岸桥划分为固定岸桥及调度
2022-04-25 23:06:24 251KB 首发论文
1