知识蒸馏 知识蒸馏(a.k.a Teacher-Student Model)旨在利用一个小模型(Student)去学习一个大模型(Teacher)中的知识, 期望小模型尽量保持大模型的性能,来减小模型部署阶段的参数量,加速模型推理速度,降低计算资源使用。 目录结构 1.参考 (Hinton et al., 2015), 在cifar10数据上的复现,提供一个对Knowledge Distillation的基本认识,具体内容请查阅: 2.利用BERT-12 作为Teacher,BERT-3作为student,同时学习ground truth 和 soften labels,性能与Teacher 相当甚至更优,具体内容请查阅: 主要参考论文: 3.利用模块替换的思路,来进行Knowledge Distillation,具体内容请查阅: 论文: Blog: repo: 4.利用不同样本预测的难易
2022-02-25 14:29:26 87KB nlp keras knowledge-distillation bert
1
毫米波检测器 该项目基于mmdetection(v-2.9.0),所有用法与相同,包括培训,测试等。 蒸馏器动物园 安装 设置新的conda环境: conda create -n distiller python=3.7 安装pytorch 安装mmdetection-distiller git clone https://github.com/pppppM/mmdetection-distiller.git cd mmdetection-distiller pip install -r requirements/build.txt pip install -v -e . 火车 #single GPU python tools/train.py configs/distillers/cwd/cwd_retina_rx101_64x4d_distill_retina_r50_fpn_2
2021-12-05 16:46:42 7.04MB Python
1
知识蒸馏TPU 使用ResNet和简单的ConvNet进行的卫星图像分类器知识蒸馏。 这些模型在TPU上进行了训练。
2021-12-02 21:14:53 1.83MB JupyterNotebook
1
BERT和知识提炼的问题解答 该存储库包含必要的代码,以便微调SQuAD 2.0数据集上的BERT。 此外,的技术是通过微调施加使用BERT作为教师模型小队2.0数据集。 使用Google Colab的1个Tesla V100 GPU获得了所有结果。 1.什么是SQuAD? 斯坦福问答数据集(SQuAD)是一种阅读理解数据集,由人群工作人员在一组Wikipedia文章上提出的问题组成,其中每个问题的答案是对应阅读段落或问题的一段文本或跨度可能无法回答。 SQuAD 2.0将SQuAD 1.1中的100,000个问题与超过50,000个由对抗性工作者对抗性编写的问题相结合,看起来类似于可回答的问题。 为了在SQuAD 2.0上取得出色的成绩,系统不仅必须在可能的情况下回答问题,而且还必须确定该段落何时不支持任何答案并放弃回答。 有关SQuAD数据集和当前排行榜的更多信息,您可以访问以下。
1
知识蒸馏在文本方向上的应用 模型相关等内容在有具体介绍。 目录 更新日志 2020.08.28 整理代码结构,抛弃借鉴的Bert模型,增加xlnet模型,预训练xlnet模型效果较差,可以在模型基础上再进行预训练,因此添加了模型预训练代码。 2020.07.15 修复bug,添加textGCN模型(单独训练,模型效果较差)。 2020.07.06 移除模型介绍&部分模型实现,增加使用说明及运行环境。 2020.05.28 增加了直接使用学生模型训练代码,并使用公开测试集完成测试。 运行环境 python 3.7 pytorch 1.1 (BERT模型参考Bert-Chinese-Text-Classification-Pytorch,有较多改动) transformers 3.0.2 torch 1.5.0 使用说明 下载Wikipedia_zh 中文维基百科 预训练词向量放入Knowl
2021-10-03 16:16:24 1.11MB pytorch knowledge-distillation bert Python
1
对比表示蒸馏(CRD),以及最新知识蒸馏方法的基准RepDistiller此回购协议:(1)涵盖以下ICLR 2020论文的实施:“对比表示蒸馏”(CRD)。 纸,项目页。 (2)在PyTorch中对12种最先进的知识提炼方法进行了基准测试,包括:(KD)-在神经网络中提炼知识(FitNet)-Fitnets:细深网的提示(AT)-更加关注注意:通过注意转移(SP)改善卷积神经网络的性能-相似性保留
2021-09-07 15:36:28 48KB Python Deep Learning
1
这篇文章利用知识蒸馏方式对PSPNet进行了模型压缩,包含传统logits蒸馏和logits与特征混合蒸馏两种方式。 Teacher:PSPNet model of ResNet18 backbone Student: PSPNet model of ResNet50 backbone. Dataset: PASCAL-VOC2012
2021-09-03 18:12:40 1022KB 知识蒸馏 模型压缩 深度学习
近年来,深度神经网络在工业和学术界取得了巨大的成功,特别是在视觉识别和神经语言处理方面的应用。深度学习的巨大成功,主要归功于其巨大的可扩展性,既有大规模的数据样本,也有数十亿的模型参数。
2021-07-17 14:53:22 1.06MB 《知识蒸馏》
1
使用Tensorflow实现的知识蒸馏方法
2021-07-09 17:28:41 29.46MB Python开发-机器学习
1
Pytorch实现的各种知识蒸馏方法 Knowledge-Distillation-Zoo Pytorch 实现各种知识蒸馏 (KD) 方法。 本知识库是一个简单的参考资料,主要侧重于基础知识蒸馏/转移方法。 因此没有考虑许多技巧和变化,例如逐步训练、迭代训练、教师集成、KD 方法集成、无数据、自蒸馏、量化等。 希望它对您的项目或研究有用。 我将使用新的 KD 方法定期更新此 repo。 如果我遗漏了一些基本方法,请与我联系。 Lists Name Method Paper Link Code Link Baseline basic model with softmax loss — code Logits通过回归logits模拟学习论文代码ST软目标论文代码AT注意力转移论文代码Fitnet提示薄深度网络论文代码NST神经选择性转移论文代码PKT概率知识转移论文代码 FSP 求解流程过程论文代码 FT 因子转移论文代码 RKD 关系知识蒸馏论文代码 AB 激活边界论文代码 SP 相似性保存论文代码 Sobolev sobolev/jacobian 匹配论文代码 BSS 边
2021-06-30 11:04:58 48KB 机器学习
1