传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的主要挑战是有效的勘探以及开发与勘探的平衡。 先前的工作表明,可以从分布的角度采取更多有益的措施。 我们的研究结果表明了其成功的另一个原因:分布式RL的性能增强可以部分归因于其有效探索环境的卓越能力。
1
莱维飞行改进麻雀算法(SSA)优化BP神经网络回归预测,LevySSA-BP回归预测,多变量输入单输出模型。 评价指标包括:R2、MAE、MSE、RMSE和MAPE等,代码质量极高,方便学习和替换数据。
2024-01-05 09:10:10 16KB 神经网络
1
Java环境变量设置工具.rar
2023-12-13 07:05:46 163KB 系统软件
1
海鸥算法(SOA)优化随机森林的数据回归预测,SOA-RF回归预测,多变量输入模型。 评价指标包括:R2、MAE、MSE、RMSE和MAPE等,代码质量极高,方便学习和替换数据。
2023-12-08 08:57:08 61KB 随机森林
1
北方苍鹰算法(NGO)优化最小二乘支持向量机回归预测,NGO-LSSVM回归预测,多变量输入模型。 评价指标包括:R2、MAE、MSE、RMSE和MAPE等,代码质量极高,方便学习和替换数据。
2023-12-02 15:53:26 175KB 支持向量机
1
◆ 数据地址分析功能:根据触摸屏或组态软件的数值,自动搜索PLC的寄存器地址; ◆ 数据主动上报功能:MQTT协议JSON格式发送,或者存入MySQL数据库;
2023-11-30 23:33:00 1.47MB MQTT JSON MYSQL 数据上传
1
1.Matlab实现TPA-LSTM Attention-LSTM多变量回归预测; 2.运行环境为Matlab2020b; 3.Train为训练集数据,Test为测试集数据,TPAMain.m为主程序,运行即可;其余m文件为子函数,无需运行,所有文件放在一个文件夹; 4.运行需要要GPU支持运算。 1. 使用Matlab实现了TPA-LSTM/Attention-LSTM多变量回归预测的算法。 2. 该算法在Matlab2020b环境下运行。 3. 程序包含了训练集数据(Train)、测试集数据(Test)以及一个主程序(TPAMain.m),只需运行主程序即可。其他的m文件是子函数,无需单独运行,建议将所有文件放在同一个文件夹中。 4. 运行该程序需要GPU支持进行计算。 涉及的 1. TPA-LSTM/Attention-LSTM:这是一种多变量回归预测的算法。TPA-LSTM(Temporal Pattern Attention-LSTM)和Attention-LSTM分别是基于LSTM(长短期记忆)模型的改进版本,用于处理时间序列数据并关注序列中的重要模式和特征。
2023-11-21 20:38:57 309KB matlab lstm
1
基于卷积神经网络-长短期记忆网络结合注意力机制(CNN-LSTM-Attention)多变量时间序列预测,CNN-LSTM-Attention多维时间序列预测,多列变量输入模型。matlab代码,2020版本及以上。 评价指标包括:R2、MAE、MSE、RMSE和MAPE等,代码质量极高,方便学习和替换数据。
2023-11-20 16:46:33 62KB 网络 网络 matlab lstm
1
1.输入多个特征,输出单个变量; 2.考虑历史特征的影响,多变量时间序列预测; 4.excel数据,方便替换; 5.运行环境Matlab2018b及以上; 6.输出R2、MAE、MBE等评价指标。
2023-11-20 14:49:45 685KB matlab
1
jdk1.6 64位 win7 java环境变量配置
2023-11-19 07:00:32 59.3MB jdk1.7 java 环境变量
1