深度学习中知识蒸馏研究综述
2024-04-30 18:15:49 6.06MB 深度学习
1
联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。与在所有学生中共享同一教师的方法相反,FedMMD 为每个需要进行多次独立蒸馏的学生分配不同的教师。由于每个模型都可以单独视为教师,FedMMD解决了共享教师仅具有平均性能由平均软标签引起的问题。同时,在每次蒸馏中,FedMMD没有使用模型在公共数据上的平均软标签作为教师,而是引入了中间表示和软标签的组合作为蒸馏目标,以了解教师的更多信息细节。我们在两个公共数据集(CIFAR10和MINIST)上的广泛实验证明了所提出的方法的性能。
2023-03-18 22:08:53 2.28MB 深度学习 知识蒸馏
1
DeiT外部蒸馏实现。按照论文做的,Teacher使用regnetx_160,Student使用deit_tiny_distilled_patch16_224,经过蒸馏ACC提高了1%左右
2022-12-22 18:30:49 964.33MB DEiT 蒸馏
NST蒸馏是对模型里面的的Block最后一层Feature做蒸馏,所以需要最后一层block的值。所以我们对模型要做修改来适应NST算法,并且为了使Teacher和Student的网络层之间的参数一致,我们这次选用CoatNet作为Teacher模型,选择ResNet18作为Student。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127975441?spm=1001.2014.3001.5501
2022-11-24 16:26:28 930.95MB 知识蒸馏
知识蒸馏IRG算法实战:使用ResNet50蒸馏ResNet18 的源代码。详细看文章:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127912648?spm=1001.2014.3001.5501
2022-11-23 16:26:03 930.95MB 知识蒸馏
RKD实现对模型的蒸馏。与上一篇(https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127787791?spm=1001.2014.3001.5501)蒸馏的方法有所不同,RKD是对展平层的特征做蒸馏蒸馏的loss分为二阶的距离损失Distance-wise Loss和三阶的角度损失Angle-wise Loss。 链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127874090
2022-11-18 12:23:42 930.94MB 知识蒸馏
知识蒸馏(Knowledge Distillation),简称KD,将已经训练好的模型包含的知识(”Knowledge”),蒸馏(“Distill”)提取到另一个模型里面去。 本例是知识蒸馏实战案例
2022-11-11 11:31:27 930.94MB 知识蒸馏
Hinton在NIPS 2014workshop中提出知识蒸馏(Knowledge Distillation,下面简称KD)概念: 把复杂模型或者多个模型Ensemble(Teacher)学到的知识 迁移到另一个轻量级模型( Student )上叫知识蒸馏。使模型变轻量的同时(方便部署),尽量不损失性能。
2022-10-14 19:20:33 6.09MB knowledge_distil
1
知识蒸馏是提升网络性能的方法,通过一个教师网络指导学生网络的学习,将教师网络学习到的知识迁移到学生网络上。 项目博客: https://blog.csdn.net/weixin_38346042/article/details/126065848
2022-10-14 09:08:19 5.46MB yolov5 知识蒸馏 模型轻量化 目标检测
排名蒸馏 排名蒸馏的PyTorch实现: ,唐嘉喜和王珂,KDD '18 要求 Python 2或3 脾气暴躁的 科学 用法 训练学生模型(Model-S) 运行d=50 python train_caser.py以获得学生模型的性能。 完成后,我们会将模型保存在文件夹检查点/ 培训教师模型(Model-T) 使用d=100运行python train_caser.py以获取教师模型的性能。 完成后,我们会将模型保存在文件夹检查点/ 通过分级蒸馏训练学生模型(Model-RD) 使用d=100运行python train_caser.py以获得训练有素的教师模型。 完成后,我们将教师模型保存在文件夹检查点/ (您也可以跳过此步骤,因为checkpoint / gowalla-caser-dim = 100.pth.tar中有一个) 运行python distill_ca
2022-07-19 23:27:34 62.23MB Python
1