SWA简单来说就是对训练过程中的多个checkpoints进行平均,以提升模型的泛化性能。记训练过程第i ii个epoch的checkpoint为w i w_{i}w
i
,一般情况下我们会选择训练过程中最后的一个epoch的模型w n w_{n}w
n
或者在验证集上效果最好的一个模型w i ∗ w^{*}_{i}w
i
∗
作为最终模型。但SWA一般在最后采用较高的固定学习速率或者周期式学习速率额外训练一段时间,取多个checkpoints的平均值。
原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124414939
2022-04-26 10:05:53
23.55MB
源码软件