传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的主要挑战是有效的勘探以及开发与勘探的平衡。 先前的工作表明,可以从分布的角度采取更多有益的措施。 我们的研究结果表明了其成功的另一个原因:分布式RL的性能增强可以部分归因于其有效探索环境的卓越能力。
1
量子计算机相对于传统计算机的优势推动了在量子计算机上开发机器学习算法的最新趋势,这有可能导致该领域的突破和新的学习模型。 我们研究的目的是探索光子量子计算机上的深度量子强化学习(RL),该技术可以处理存储在光量子态中的信息。 这些量子计算机可以自然地表示连续变量,使其成为创建神经网络的量子版本的理想平台。 我们使用量子光子电路,通过多层量子神经网络实现Q学习和行为准则算法,并在网格世界环境中对其进行测试。 我们的实验表明,1)这些量子算法可以解决RL问题,以及2)与一层相比,使用三层量子网络可以改善两种算法在所获得奖励方面的学习。 总而言之,我们的研究结果表明,在深度量子RL中具有更多的层可以增强学习效果。
1