AlexNet模型是Hinton的学生Alex Krizhevsky在2012年提出来的。AlexNet包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。
AlexNet主要使用的新技术点如下:
(1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了sigmoid,解决了sigmoid在网络较深时的梯度弥散问题。
(2)训练时使用dropout随机忽略一部分神经元,以避免过拟合,主要是最后几个全连接层使用了dropout。
(3)在CNN中使用重叠的最大池化,避免平均池化的模糊化效果。并且提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性。
(4)提出了LRN层,对局部的神经元活动创建竞争机制,使其中响应比较大的值变得更大,增强了模型的泛化能力。
(5)使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算。
(6)数据增强,大大减轻过拟合,提升泛化能力。
1