强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
2024-10-17 18:42:47 13KB 强化学习
1
提出了在多物资、多车型特征的应急物资分层调度情况下求解调度系统中各运输工具具体调度方案的算法。该算法以系统调度任务完成时间最小为目标,基于遗传算法采用整体联动的求解思想。实际应用中的调度问题往往具有层次性,针对物资分层联动调度问题,给出了物资两层调度的算例,并建立了相应的数学模型。算例中第一层调度系统由一级仓库、二级仓库、一级运输工具和一级路网构成;第二层调度系统由灾害点、二级仓库、二级运输工具和二级路网构成。将两层调度系统视做整体,采用基于遗传算法的整体联动求解方法对算例进行求解得出结果,并对结果进行分析论证,验证算法的可行性与有效性。
2024-10-13 23:49:56 1.63MB
1
提出了一种将有线工业以太网和WSN有机结合的矿井监控与应急通信系统,结合该系统的应用要求,设计了一种基于分层的工作面路由协议(LRWF,Layer-based Routing for Working Face)。LRWF利用分簇的思想,将工作面节点按照跳数分层后,根据各层的不同负载形成不同规模的簇以便均衡网络能量,之后以簇首间时变的传输延时、节点剩余能量和传输能耗构建的复合指标选取路径,实现簇间数据的多跳转发。OMNET++仿真实验结果表明,LRWF与现有的矿井WSN路由协议相比,具有较低延时和更好的能量有效性,更适合于矿井环境。
2024-07-14 13:48:08 317KB 路由协议
1
基于模块化 SRAM 的 2D 分层搜索 二进制内容可寻址存储器 (BCAM) Ameer MS Abdelhadi 和 Guy GF Lemieux 不列颠哥伦比亚大学 (UBC) 2014 { ameer.abdelhadi; Guy.lemieux } @ gmail.com 建议的基于模块化 SRAM 的 2D 分层搜索二进制内容可寻址存储器 (BCAM) 的完全参数化和通用 Verilog 实现以及其他方法作为开源硬件提供。 还提供了批量运行流程管理器,用于使用 Altera 的 ModelSim 和 Quartus 批量仿真和综合具有各种参数的各种设计。 许可证: BSD 3-Clause(“BSD New”或“BSD Simplified”)许可证。 请参阅全文以获取更多信息: AMS Abdelhadi 和 GGF Lemieux,“使用基于 FPGA 的 BRAM
2024-03-27 11:10:03 3.1MB Verilog
1
为了提高配电网故障定位在大面积通信故障下的容错性,以现有的配电网故障定位模型为基础,通过系统地计及馈线终端设备(FTU)漏报和误报,建立了配电网故障定位解析模型。为了提高模型的可行性,以故障矛盾假说为约束条件,将目标函数变量维度减小到3倍的节点数量;在分析配电网拓扑结构和工程设备配置的基础上,通过构建分层故障定位模型,进一步减小变量维度。此外,分层解析模型能够利用第2层的定位结果对第1层的定位结果进行校验,使故障定位更加精确。算例分析结果表明,计及FTU漏报和误报的分层解析模型不仅能够大幅地提高配电网故障定位的准确率和容错性,还能同步获取FTU漏报和误报的告警信息。
2024-03-08 20:48:47 1.36MB
1
Sun StorEdge Performance Suite(性能套件)允许2部Sun Fire V880和1部Sun Enterprise 4500服务器,共享存储区域网(SAN)。这些服务器同时连接2GB SAN和千兆以太网,并使用Sun PC NetLink,为卫星图像提供本地处理,为台式系统提供文件服务。所以,EarthSat公司认为,Sun平台是整个分层式存储管理系统的保障。
2024-03-03 22:59:46 22KB
1
分层地层对透地通信电磁波的传播特性有重要影响。现有的研究主要是基于规则分层地层模型对电磁波透地传播特性进行分析,但分层地层往往是不规则的。为此,基于所建立的不规则分层地层模型,将分层地层模型分界面抽象为平面、正斜面和负斜面。根据电磁波入射角与分层地层倾斜角的几何关系,推导了电磁波在不规则分层地层中正向和反向传播时电场强度和磁场强度的衰减情况。仿真表明分层地层的不规则性与电磁波进入分层地层介质的先后次序均对电磁波的传输衰减有重要影响。虽然电场强度和磁场强度随着透地距离的增加都显著地衰减,但电场强度和磁场强度的衰减特性并不相同。此外,无论是对电场还是磁场,由于在分层地层分界面电磁波都要产生反射,因此,电磁波在进入到另外一层媒质时电场强度和磁场强度都会产生一定程度的突变衰减。
2024-02-24 16:15:51 1.59MB 透地通信 透射系数 衰减特性
1
分布最优平衡分层交叉验证 (DOB-SCV) 将数据集划分为 n 折,这样,除了基于标签的分层之外,还可以为每个类维护特征空间中的平衡分布。 使用 DOB-SCV 而不是分层交叉验证的实际效果是稍微提高了测试准确性。 最大的改进可以预期在小的、类别不平衡的数据集上。 该实现可用作CVPARTITION的直接替代。 参考:关于分区诱导的数据集偏移对 k 折交叉验证的影响的研究,可从https://ieeexplore.ieee.org/document/6226477 获得
2023-12-25 19:41:11 2KB matlab
1
县域财政金融政策与居民消费的分层差异研究,温涛,王汉杰,县域消费市场的推进是
2023-12-14 10:33:35 247KB 首发论文
1
PVDF在分层介质动态力学性能研究中的应用,董星,刘永强,本文介绍了聚偏二氟乙烯(PVDF)的基本原理和在SHPB试验中的标定及应力测量系统,研究表明,测试系统稳定,标定曲线线形良好,动响�
2023-12-01 21:34:16 466KB 首发论文
1