Knowledge-Distillation-NLP:NLP中知识蒸馏的一些演示-源码

上传者: 42097967 | 上传时间: 2022-02-25 14:29:26 | 文件大小: 87KB | 文件类型: -
知识蒸馏 知识蒸馏(a.k.a Teacher-Student Model)旨在利用一个小模型(Student)去学习一个大模型(Teacher)中的知识, 期望小模型尽量保持大模型的性能,来减小模型部署阶段的参数量,加速模型推理速度,降低计算资源使用。 目录结构 1.参考 (Hinton et al., 2015), 在cifar10数据上的复现,提供一个对Knowledge Distillation的基本认识,具体内容请查阅: 2.利用BERT-12 作为Teacher,BERT-3作为student,同时学习ground truth 和 soften labels,性能与Teacher 相当甚至更优,具体内容请查阅: 主要参考论文: 3.利用模块替换的思路,来进行Knowledge Distillation,具体内容请查阅: 论文: Blog: repo: 4.利用不同样本预测的难易

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明