具有单周期学习率时间表的AdamW的Tensorflow 2.3实现
基于S.Gugger和J.Howard在这里的帖子: :
用法
optimiser = OneCycleAdamW(learning_rate: float, weight_decay: float, cycle_length: int)
学习率:在周期峰值时使用的最大学习率。 学习率将逐渐上升,然后下降
重量衰减:要应用的重量衰减。 这将遵循与学习率相同的时间表
周期长度:完成“一个周期”策略的步骤数。 在“ cycle_length”之后,学习率将呈指数递减的趋近于零。
经过测试:
Python 3.8
张量流2.3
张量流数据集4.2.0
tensorflow-addons 0.12.1
2022-08-05 10:54:27
61KB
Python
1