深度学习中知识蒸馏研究综述
2024-04-30 18:15:49 6.06MB 深度学习
1
联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。与在所有学生中共享同一教师的方法相反,FedMMD 为每个需要进行多次独立蒸馏的学生分配不同的教师。由于每个模型都可以单独视为教师,FedMMD解决了共享教师仅具有平均性能由平均软标签引起的问题。同时,在每次蒸馏中,FedMMD没有使用模型在公共数据上的平均软标签作为教师,而是引入了中间表示和软标签的组合作为蒸馏目标,以了解教师的更多信息细节。我们在两个公共数据集(CIFAR10和MINIST)上的广泛实验证明了所提出的方法的性能。
2023-03-18 22:08:53 2.28MB 深度学习 知识蒸馏
1
NST蒸馏是对模型里面的的Block最后一层Feature做蒸馏,所以需要最后一层block的值。所以我们对模型要做修改来适应NST算法,并且为了使Teacher和Student的网络层之间的参数一致,我们这次选用CoatNet作为Teacher模型,选择ResNet18作为Student。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127975441?spm=1001.2014.3001.5501
2022-11-24 16:26:28 930.95MB 知识蒸馏
知识蒸馏IRG算法实战:使用ResNet50蒸馏ResNet18 的源代码。详细看文章:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127912648?spm=1001.2014.3001.5501
2022-11-23 16:26:03 930.95MB 知识蒸馏
RKD实现对模型的蒸馏。与上一篇(https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127787791?spm=1001.2014.3001.5501)蒸馏的方法有所不同,RKD是对展平层的特征做蒸馏,蒸馏的loss分为二阶的距离损失Distance-wise Loss和三阶的角度损失Angle-wise Loss。 链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/127874090
2022-11-18 12:23:42 930.94MB 知识蒸馏
知识蒸馏(Knowledge Distillation),简称KD,将已经训练好的模型包含的知识(”Knowledge”),蒸馏(“Distill”)提取到另一个模型里面去。 本例是知识蒸馏实战案例
2022-11-11 11:31:27 930.94MB 知识蒸馏
Hinton在NIPS 2014workshop中提出知识蒸馏(Knowledge Distillation,下面简称KD)概念: 把复杂模型或者多个模型Ensemble(Teacher)学到的知识 迁移到另一个轻量级模型( Student )上叫知识蒸馏。使模型变轻量的同时(方便部署),尽量不损失性能。
2022-10-14 19:20:33 6.09MB knowledge_distil
1
知识蒸馏是提升网络性能的方法,通过一个教师网络指导学生网络的学习,将教师网络学习到的知识迁移到学生网络上。 项目博客: https://blog.csdn.net/weixin_38346042/article/details/126065848
2022-10-14 09:08:19 5.46MB yolov5 知识蒸馏 模型轻量化 目标检测
简单的预实验,教师模型4个隐藏层,学生模型2个隐藏层。另外可视化知识蒸馏的温度系数T的大小对知识蒸馏的影响。
2022-06-17 21:05:31 233.42MB 知识蒸馏 迁移学习
1
yolov3 yolov4 channel and layer pruning, Knowledge Distillation 层剪枝,通道剪枝,知识蒸馏 yolov3-channel-and-layer-pruning 本项目以ultralytics/yolov3为基础实现,根据论文Learning Efficient Convolutional Networks Through Network Slimming (ICCV 2017)原理基于bn层Gmma系数进行通道剪枝,下面引用了几种不同的通道剪枝策略,并对原策略进行了改进,提高了剪枝率和精度;在这些工作基础上,又衍生出了层剪枝,本身通道剪枝已经大大减小了模型参数和计算量,降低了模型对资源的占用,而层剪枝可以进一步减小了计算量,并大大提高了模型推理速度;通过层剪枝和通道剪枝结合,可以压缩模型的深度和宽度,某种意义上实现了针对不同数据集的小模型搜索。 项目的基本工作流程是,使用yolov3训练自己数据集,达到理想精度后进行稀疏训练,稀疏训练是重中之重,对需要剪枝的层对应的bn gamma系数进行大幅压缩,理想的压缩情况如下图,
2022-05-04 21:02:31 1.4MB Python Deep Learning
1