传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的主要挑战是有效的勘探以及开发与勘探的平衡。 先前的工作表明,可以从分布的角度采取更多有益的措施。 我们的研究结果表明了其成功的另一个原因:分布式RL的性能增强可以部分归因于其有效探索环境的卓越能力。
1
主要介绍了使用python 计算百分位数实现数据分箱代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2023-08-11 09:23:07 57KB python 百分位数 数据分箱
1
分位数函数 分布。 随机变量的为 对于0 <= p < 1 ,其中alpha是第一个形状参数, beta是第二个形状参数, F(x;alpha,beta)表示参数为alpha和beta的beta随机变量的累积分布函数。 安装 $ npm install distributions-beta-quantile 要在浏览器中使用,请使用 。 用法 var quantile = require ( 'distributions-beta-quantile' ) ; 分位数(p [,options]) 评估分布的。 p可以是0到1之间的number , array ,typed array或matrix 。 var matrix = require ( 'dstructs-matrix' ) , mat , out , x , i ; out = quantile ( 0.
2023-03-21 20:18:47 40KB JavaScript
1
洪水频率分布 (FFD) 是免费软件,用于分析洪水并估计不同重现期的分位数1- 在 FFD 2.0 中,我们引入了十 (10) 个概率分布: 正态分布、对数正态分布 (2p)、Gumbel 分布Racine-Normal 分布、(GEV) 分布、Gamma 分布 (2p)、Log Pearson 3 分布、Goodrich 分布、LogNormal (3P) 和 Weibull 分布 (2p) 2-在FFD 2.1中,一些分布的参数估计方法可以是: a- 力矩法或 b- L-力矩法3-分位数的结果估计的下限和上限为 95%(古德里奇分布除外)。 4-Quantile-Quantile 图 (QQ-plot) 与相关系数 R 一起显示。 5-显示分位数和观察数据之间的均方根误差 (RMSE)。 6-回报期为:2、5 10、20、50 100、500、1000和10000年7-在excel文件
2023-03-08 15:19:04 954KB matlab
1
MATLAB实现LASSO分位数回归时间序列预测(完整源码和数据) 两个月数据,不同特征预测,预测80%间隔,不同特征选择误差,日前一天各个预测点的分位数,程序乱码是由于版本不一致导致,可以用记事本打开复制到你的文件。
小波变换函数matlab代码标量上的贝叶斯分位数回归 一种执行贝叶斯标量函数的分位数回归的方法,即贝叶斯FQR。 所提出的方法适用于用p设计矩阵X给定响应函数y和n的N-被T矩阵数据集。 该存储库提供 一组MATLAB脚本,用于实现我们提出的贝叶斯FQR模型(已调整或未调整),以及朴素的逐点贝叶斯分位数回归; R脚本实现了基于引导程序的方法,与我们在本文中提出的模型进行了比较; 复制纸上所有数字的代码; 该代码可根据预处理的质谱数据调整块效应并生成模拟数据集。 文件结构: 子文件夹“ BayesianFQR /”包含一组MATLAB脚本,用于通过对回归系数函数使用离散小波变换(DWT)以及对小波系数进行先验的马蹄形实现Bayesian FQR模型。 子文件夹“ BayesianFQR_corrected_likelihood /”包含一组MATLAB脚本,用于使用回归系数函数上的离散小波变换(DWT)和三明治小波变换(DWT)使用三明治似然校正(见本文第2.4节)来实现贝叶斯FQR模型的调整版本。小波系数。 子文件夹“ BayesianQR /”包含一组MATLAB脚本,以使用非对称拉
2022-11-11 20:42:55 98.18MB 系统开源
1
zw-快速分位数 Rust 中的快速近似分位数算法 这个库中有两种实现:FixedSizeEpsilonSummary一种是预先知道流的大小,另UnboundEpsilonSummary一种是用于未知大小的流。您可以调整epsilon自己的错误率以在空间和准确性之间进行权衡。
2022-06-12 14:05:20 18KB 算法 rust
一般信息 支持向量机(SVM)和相关的基于内核的学习算法是一类知名的机器学习算法,用于非参数分类和回归。 liquidSVM是SVM的实现,其主要功能是: 完全集成的超参数选择, 无论大小数据集,其速度都极高, , , , 和绑定, 为专家提供充分的灵活性,以及 包括各种不同的学习场景: 多类别分类,ROC和Neyman-Pearson学习, 最小二乘,分位数和预期回归。 如有疑问和意见,请通过与我们联系。 您也可以在此处要求注册到我们的邮件列表。 liquidSVM已根据许可。 如果您需要其他许可证,请与联系。 命令行界面 命令行版本的。 Linux / OS X的终
2022-06-05 16:05:49 5.28MB python c-plus-plus machine-learning r
1
基于深度学习分位数回归模型的风电功率概率密度预测.pdf
高维数据的惩罚复合分位数回归,李玉杰, 胡涛,在不同的科学领域中, 经常会遇到厚尾的高维数据. 此时经典的最小二乘回归的结果将变的很差. 本文章考虑模型假设为线性模型时, 模型�
2022-05-08 14:32:24 280KB 首发论文
1