2012年以来,深度神经网络在计算机视觉、语音识别、自然语言处理、智慧
医疗等多个领域取得了优异的成果。这是卜数只偶,也是水到渠成。究其本质,
还是得益于三个基础的驱动,包括:大数据(充分标注)、大模型(参数量庞大)
和大计算(高性能计算)。正因为对这三个基础的严重依赖,也在一定程度上限
制了人工智能的进一步发展和普及。首先,大模型对大数据的过度依赖表现在其
在训练阶段必须在大量的标注充分的数据下训练,否则模型的准确率将大大降
低。很多新的应用场景的样本获取困难并且标注成本极高,因此不少学者开始
研究小样本学习方法,目的是当面对一个新的场景时,快速的从少量的有标记
样本中学会认识新的类别。其次,大模型对大计算的依赖表现在其无论在训练
和测试阶段均需要拥有大量存储空间和优异计算性能的硬件平台的加持。那么,
对于很多的存储和计算资源均极其有限的测试场景,比如移动端(智能手机,自
动驾驶汽车等),离线监控设备(公共摄像头,汽车行车记录仪等),现有的训练
好的大模型将会出现水土不服,无法顺利落地。于是,模型轻量化问题也被领域
内科研人员广泛关注。研究模型轻量化的目的是压缩模型参数量,使其在移动