知识蒸馏
知识蒸馏(a.k.a Teacher-Student Model)旨在利用一个小模型(Student)去学习一个大模型(Teacher)中的知识,
期望小模型尽量保持大模型的性能,来减小模型部署阶段的参数量,加速模型推理速度,降低计算资源使用。
目录结构
1.参考 (Hinton et al., 2015),
在cifar10数据上的复现,提供一个对Knowledge Distillation的基本认识,具体内容请查阅:
2.利用BERT-12 作为Teacher,BERT-3作为student,同时学习ground truth 和 soften labels,性能与Teacher 相当甚至更优,具体内容请查阅:
主要参考论文:
3.利用模块替换的思路,来进行Knowledge Distillation,具体内容请查阅:
论文:
Blog:
repo:
4.利用不同样本预测的难易
1