量子计算机相对于传统计算机的优势推动了在量子计算机上开发机器学习算法的最新趋势,这有可能导致该领域的突破和新的学习模型。 我们研究的目的是探索光子量子计算机上的深度量子强化学习(RL),该技术可以处理存储在光量子态中的信息。 这些量子计算机可以自然地表示连续变量,使其成为创建神经网络的量子版本的理想平台。 我们使用量子光子电路,通过多层量子神经网络实现Q学习和行为准则算法,并在网格世界环境中对其进行测试。 我们的实验表明,1)这些量子算法可以解决RL问题,以及2)与一层相比,使用三层量子网络可以改善两种算法在所获得奖励方面的学习。 总而言之,我们的研究结果表明,在深度量子RL中具有更多的层可以增强学习效果。
1
原文标题:Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning 作者:Le Liang 是发表在IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS, VOL. 37, NO. 10, OCTOBER 2019的论文 主要讲述了通过强化学习解决频谱子带选择和功率控制的方案
2021-11-10 11:36:28 1.4MB V2X 强化学习 资源分配 频谱分享
1
最优控制习题及参考答案,自己整理的感觉不错,希望对大家学习有帮助!
2021-11-09 21:14:20 3.05MB 最优控制习题,参考答案
1
深度强化学习(Deep Reinforcement Learning )是研究的热点之一,在2019年DeepMind OpenAI等发表多篇热门论文。来自SprekelerLab的博士生 Robert Tjarko Lange总结了2019年十大深度强化学习论文,涉及到大型项目、模型RL、多代理RL、学习动力学、组合先验等,值得一看。
2021-11-08 20:15:32 40.84MB DRL
1
tsp matlab代码使用深度强化学习方法和注意力模型来解决多目标TSP。 该代码是具有四维输入(欧几里得类型)的模型。 具有三维输入的模型(混合类型)在RL_3static_MOTSP.zip中。 本文中用于可视化和比较的Matlab代码位于MOTSP_compare_EMO.zip中。 在tsp_transfer _... dirs中可以找到经过训练的模型。 要测试模型,请使用Post_process目录中的load_all_rewards。 要训​​练模型,请运行train_motsp_transfer.py 为了可视化获得的帕累托阵线,应使用Matlab对结果进行可视化。 Matlab代码位于.zip文件中。 它位于“ MOTSP_compare_EMO / Problems / Combinatorial MOPs / compare.m”中。 用于批量生成数字。 首先,您需要运行train_motsp_transfer.py来训练模型。 运行load_all_rewards.py以加载和测试模型。 还将获得的Pareto Front转换为.mat文件 运行Matlab代码
2021-11-08 15:58:24 158.13MB 系统开源
1
Richard S. Sutton, Andrew G. Barto-Reinforcement Learning_ An Introduction-MIT Press (1998)高清版经典教材
2021-11-08 15:43:52 2.39MB 强化学习 经典教材
1
ml-in-action:出版书籍《机器学习入门到实践——MATLAB实践应用》一书中的实例程序。涉及监督学习,非监督学习和强化学习。(本书的代码“ MATLAB中的机器学习简介与操作” ”)
1
文件中包含了强化学习精要的代码,学习强化学习精要必须拥有,同时还包含了deepmind团队davidsilver公开课PPT,供大家学习。
2021-11-07 15:57:25 33KB Reinforcemen DavidSilver ML
1
不同边界情况下的横截条件
2021-11-06 21:27:34 2.68MB ppt
1
深度强化学习以实现动态组合管理 STAT 461课程项目 张克南 该存储库是提出的用于动态投资组合管理的强化学习模型的实现 。 动机 动态投资组合管理描述了根据股票价格顺序分配资产集合以最大化长期收益的过程。 从本质上讲,它属于强化学习的名声,代理商通过与环境互动来学习最佳策略。 因此,我们可以将投资组合的重新分配视为“行动”,将股票市场视为“环境”,将立即的投资回报视为“回报”。 问题陈述 考虑一个由m个资产和现金组成的投资组合。 我们使用向量w表示每项资产的权重,因此权重之和等于1。假设最后一次重新分配后的权重为w t-1 ,则在当前时间步结束时,权重转移到w ' t由于股票价格变动。 然后,我们需要重新分配投资组合,以使权重等于w t 。 MDP框架 与其他强化学习模型相同,我们需要首先将动态投资组合优化问题表述为马尔可夫决策过程(MDP)。 状态S T:标准化价格的历史很短。 考
2021-11-06 16:36:30 6.09MB JupyterNotebook
1