目前,Transformer已经霸榜计算机视觉各种任务,但是缺点也很明显就是参数量太大无法用在移动设备,为了解决这个问题,Apple的科学家们将CNN和VIT的优势结合起来,提出了一个轻量级的视觉网络模型mobileViT。
根据论文中给出的Top-1成绩的对比结果,我们可以得出,xs模型参数量比经典的MobileNetV3小,但是精度却提高了7.4%,标准的S模型比ResNet-101,还高一些,但是参数量也只有ResNet-101的九分之一。这样的成绩可谓逆天了!
本文从实战的角度出发,带领大家感受一下mobileViT,我们还是使用以前的植物分类数据集,模型采用MobileViT-S。