传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的主要挑战是有效的勘探以及开发与勘探的平衡。 先前的工作表明,可以从分布的角度采取更多有益的措施。 我们的研究结果表明了其成功的另一个原因:分布式RL的性能增强可以部分归因于其有效探索环境的卓越能力。
1
易语言数字组合例程源码,数字组合例程,和值条件,奇偶比例条件,分解数条件,是否奇数
1
delphi11 著名控件 Woll2Wool infoPower 4k 21.0.5 含完整源码版 install 有对应的安装方式, delphi11.3亲测可以使用
2024-01-05 15:57:53 27.22MB
1
进程调度算法____操作系统课程设计__随机产生数
1
基于MATLAB对遥感图像或矩进行中值,众数或均值滤波。 实现了数字图像处理中的中值、众数、均值、最大、最小值等滤波,可以根据需求选择。 代码中是正方形的滤波窗口,你可以更改为线、十字、X,棱形、圆形等的滤波窗口。 全都是自己写的,有注释。
2024-01-04 16:41:18 2KB matlab
1
操作系统进程管理,按优先数调度算法实现处理器调度,进程调度!
1
西南交通大学 数电实验 1_Quartus的使用.docx
2024-01-02 21:29:34 119KB 交通物流
1
易语言模块树型框附加模块-外部数据库版.rar 易语言模块树型框附加模块-外部数据库版.rar 易语言模块树型框附加模块-外部数据库版.rar 易语言模块树型框附加模块-外部数据库版.rar 易语言模块树型框附加模块-外部数据库版.rar 易语言模块树型框附加模块-外部数据库版.rar
1
VC6.0写的 能够实现逻辑运算(逻辑非、逻辑加、逻辑乘、逻辑异)、定点整数的单符号位补码加减运算、定点整数的原码一位乘法运算和浮点数的加减运算。
2023-12-29 21:00:25 4.22MB
1
密码学与数论基础-于秀源薛昭雄-山东科学技术出版社
2023-12-23 20:45:56 4.23MB
1