拉丹
自适应学习率的方差及超越
我们处于早期版本的Beta中。 期待一些冒险和艰难的边缘。
目录
介绍
如果热身是答案,那么问题是什么?
Adam的学习速度预热是在某些情况下(或eps调整)进行稳定训练的必备技巧。 但是基本机制尚不清楚。 在我们的研究中,我们提出一个根本原因是自适应学习率的巨大差异,并提供理论和经验支持证据。
除了解释为什么要使用预热之外,我们还提出RAdam ,这是Adam的理论上合理的变体。
动机
如图1所示,我们假定梯度遵循正态分布(均值:\ mu,方差:1)。 模拟了自适应学习率的方差,并将其绘制在图1中(蓝色曲线)。 我们观察到,在训练的早期阶段,自适应学习率具有很大的差异。
将变压器用于NMT时,通常需要进行预热阶段以避免收敛问题(例如,图2中的Adam-vanilla收敛于500 PPL左右,而Adam-warmup成功收敛于10 PPL以下)。 在进
1