快速保真地制备量子态是量子系统的关键问题。 我们提出了两种基于尖端强化学习方法的改进算法,用于在量子自旋系统中从初始状态翻转到目标状态。 探索与开发之间的平衡以及状态空间的大小是强化学习方法的关键因素。 在第一个算法中,我们提出了一种改进的-贪心策略,而不是-贪心策略,以平衡勘探和开发。 此外,我们使用最终状态的保真度作为奖励,并在每个持续时间内利用分段恒定驾驶协议。 结果表明,该算法的校正率大于采用-贪心策略的Q学习。 但是,如果从一个状态到下一个状态的旋转角度太小,仍然会花费大量的时间资源。 因此,我们在第二种改进的Q学习算法(MQL)中初始化状态动作值表以减少状态空间,可以发现学习效率大大提高了。
1