论文地址
:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
Abstract:我们训练了一个大型的、深度卷积神经网络用来对ImageNet中超过1.2million张和1000类的高分辨率影像进行分类,超过了当前最高水平的精度。这个网络包含5个卷积层、三个全连接层、和一个softmax层。为了使训练更加快,我们使用了一种不会饱和的神经元(relu)和一种高效的GPU版本CNN(ConvNet)。为了降低全连接层的过拟合,我们使用了dropout。我们测试了一些模型,我们做的最好(嘿嘿)。
1. Introduction
机器学习在物体识别中起到了很大的作用。为了使效果更好,我们收集更大的数据集、学习更强的模型、使用更好的技术防止过拟合。直到最近,数据集都比较小,如CIFAR10、CIFAR100、BORB、Caltech-101/256。简单的识别任务适用于较小的数据集,但是现实中物体差异较大,因此需要更大的数据集。事实上,直到最近才产生了较大的labeled datasets如LabelMe、ImageNet。
为了从millons图像中学习到成千的物体,我们需要一个很大的学习容量。然而,物体识别的极其复杂性意味着即使我们学习了ImageNet这样的数据集,也无法解决这个问题。因此我们的模型需要有先验知识来理解我们没有的数据。CNN正是这样的模型,它的容量通过网络深度和宽度实现控制,并且它对自然图像做出了很强和近乎正确的假设:固定的统计特性、局部视野独立。因此,与标准前馈神经网络相比,他们有相近的尺寸,却更小的连接和参数,因此它将更加便于训练,而且表现也不比传统网络差。
尽管CNNs有很强的优势,局部视野,它在大尺度高分辨率数据集上仍然面临着难以处理的问题。幸运的是,我们有GPU(哈哈),然后我们用GPU重写了CNNs。
这篇文章的贡献是:我们训练了一个CNN网络,并应用在ImageNet ILSVRC2010-2012,得出了最高的水平,我们实现了GPU半的CNN,我们的网络使用了一系列新型不常见的特性,它们提升了网路的表现。网络的尺寸使得overfitting成为一个大问题,我们使用了一些技术防止过拟合。
还有,如果电脑配置提高,我们的精度会继续提高。
2. The Dataset
ImageNet......
3. The Architecture
AlexNet网络结构:5个CNN、3个全连接、3个max pooling。
3.1. Relu Nonlinearity
常规激活为tanh和sigmoid,在梯度下降训练过程中,这些饱和性非线性激活函数计算较慢。Relu:Rectified Linear Units,其公式:f(x) = max(0, x).接着,我们的relu网络比现有的激活函数如tanh好。
relu与tanh对比
3.2. Traning on GPU
......
3.3 Local Response Normalization
尽管relu在正向并不会饱和,但我们还是做了一种归一化处理。
3.4 Overlapping Pooling
重叠池化,即两个池化之间的距离小于池化尺寸
4. Reducing overfitting
4.1 Data Augmentaiton
4.2 Dropout
在训练过程中每次只选用一部分网络神经元相连接,从而相当于训练多个模型,且这些模型共享网络参数,相当于多个网络的集合,从而近似于取其精度平均值,可以提高网络的精度。
Dropout
Summary
我们的网络效果很好,比其他的都要好。证明了CNNs对大型数据集影像分类很有效。
网友评论