2010年,Alex Krizhevsky及其团队在一年一度的ILSVRC(the ImageNet Large-Scale Visual Recognition Challenge)赢得冠军,其文章《ImageNet Classification with Deep Convolutional Neural Networks》也获得年度最佳。Alex及其团队构建了一个8层的卷积神经网络结构,并创新性的引入了:
- 双GPU交互计算
- 替换激活函数:
tanh()
->ReLU
, - Local Response Normalization
- 引入
dropout
1. 数据预处理
由于ImageNet数据集中的高分辨率图片的分辨率及尺寸存在差异,因此先将图片降采样为256 x 256
尺寸:以短边为参照降采样为256,长边裁剪去多余部分。
2. 网络结构
总共8层
- 5层卷积层
- 3层全连接层
image.png
Krizhevsky A. et al., 2012
整个网络被拆分,分别在两个GPU上计算。
2.1 ReLU激活函数
Nair and Hiton提出了ReLU
(Recfified Linear Units)激活函数,Alex等人在他们的CNN网络中首次使用了ReLU
激活函数。相较于与等饱和的非线性激活函数,使用梯度下降法的训练时间要长于等非饱和非线性激活函数。
Krizhevsky A. et al., 2012
ReLU
的优势
- 本身的计算量相较于更小
- 收敛速度更快(上图所示)
2.2 Local Response Normalization
卷积核对应feature map位置处的激活值归一化值为:
Krizhevsky A. et al., 2012
上式中,求和过程是将n
个相邻卷积核对应的feature map(特征图)的同一位置的激活值相加,N
为该层的卷积核总数。该种(神经元)响应的局部归一化应用了一种受真实神经元响应启发而采取的横向压制机制,在不同卷积核的输出产生大的响应的神经元之间引入竞争(competition)。
This sort of response normalization implements a form of lateral inhibition inspired by the type found in real neurons, creating competition for big activities amongst neuron outputs computed using different kernels.
在ImageNet数据集上,Local Response Normalization可以降低top-1,top-5错识率1.4%和1.2%。
3. 减轻过拟合
- Data Augmentation
- Dropout
3.1 数据扩充
数据扩充采取两种方式:
法一:图像变换(镜像)
- 在256x256的原始图片上裁剪出5张224x224大小的图片(分别从四个角,中心裁剪)
- 然后做镜像翻转,得到10张变换后的图像
法二:在像素点上引入RGB扰动。
- 计算整张图片RGB数值的协方差矩阵,求得特征值和特征根
- 然后每个像素上加一个随机扰动
为均值为0,标准差为0.1的高斯函数采样点。
3.2 dropout
dropout:将激活值低于me某个阈值的(隐藏层)神经元置为dead neuron,dropped out的神经元不再参与后续的前向传播和反向传播(训练)。
对每一步训练(1 batch data),输入数据是确定了的,因为加入了dropout机制,某些神经元就会被置为dead,相当于是在训练一个不同结构的网络,但这些网络共享参数。经多次训练,就相当于将大量不同的网络结构组合起来。
注:dropout大致使训练过程收敛的迭代次数翻倍。
4. 训练过程
学习率的设置:对全部层使用相同的学习率,在训练过程中,人为改变学习率:当错误率(近乎)停止下降时,将学习率除以10。
5. Conclusion
image.pngKrizhevsky A. et al., 2012
卷积神经网络模型将两张图片识别为同一类,那么两张图片在高层级的特征是相似的,而这并不代表两张图片在数学上是相似的(比如L2范数)
尽管每张图片的颜色、亮度,目标物的大小、形状、姿态不同,这意味着它们在某些数学意义上是不相似的,比如用L2范数来衡量,但CNN network architecture仍能正确识别。
前路漫漫 人工智能刚起步,三十五亿年前,地球上开始有了生命,如此漫长的演化才有了人类这样智慧的生物,机器是否可以模仿人的智能,能在多大程度上模仿,需要长期的探索...
尽管我们目前取得了进步,我们将网络的宽度和深度扩大、加深,训练更长时间,但要赶上人类视觉系统的下颞叶皮质 (infero-temporal cortex)神经通路,仍有非常非常之远的路要走。
Thus far, our results have improved as we have made our network larger and trained it longer but we still have many orders of magnitude to go in order to match the infero-temporal pathway of the human visual system.
Reference
Krizhevsky A., Sutskever I. & Hinton G. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NIPS (Vol.25). Curran Associates Inc.
V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
网友评论