上文说了CNN的基本结构,今天说说AlexNet,这也是一种典型的CNN网络,虽然有一点年份了。AlexNet是Alex在2012年提出的一种网络结构,并且获得了 IMAGENET Challenge 2012图像识别大赛的冠军。这是最有名的计算机视觉挑战赛,使得CNN成为图像分类上的核心算法模型。而2012年是深度神经网络第一次在该比赛中被使用。
该网络的运行结果比之前的传统解决方法好很多。详细的介绍在这篇论文里.
AlexNet网络结构
包括11层卷积神经网络,结构如下:
fig-8.png
这里可以看到输入和输出之间有11层,每一层的输出是下一层的输入。
-
第0层:输入图像
- 尺寸:227x227x3
- 注意:在上文的论文中图像的尺寸是224x224x3这可能是个印刷错误
-
第1层:使用96个大小为11x11,步长为4的filter进行卷积
- 尺寸:55x55x96
- 计算过程:(227-11)/4 + 1 = 55
- 深度为96是因为1维对应着一个filter,一共有96个filter
-
第2层:使用尺寸为3x3步长为2的filter进行最大池化
- 尺寸:27x27x96
- 计算过程:(55-3)/2 +1 =27
- 深度跟上一层相同,例如96,是因为每一层的池化操作都是独立进行的。
-
第3层:使用256个尺寸为5x5步长为1,边缘填充(padding)为2的filter进行卷积
- 尺寸:27x27x256
- 因为padding是(5-1)/2 =2,所以图像的尺寸没有发生变化。
- 深度为256是因为有256个filter。
-
第4层:使用尺寸为3x3步长为2的filter进行最大池化
- 尺寸:13x13x256
- 计算过程:(27-3)/2 +1 =13
- 深度跟上一层相同,例如256,是因为每一层的池化操作都是独立进行的。
-
第5层:使用384个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积
- 尺寸:13x13x384
- 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
- 深度为384是因为有384个filter。
-
第6层:使用384个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积
- 尺寸:13x13x384
- 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
- 深度为384是因为有384个filter。
-
第7层:使用256个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积
- 尺寸:13x13x256
- 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
- 深度为256是因为有256个filter。
-
第8层:使用尺寸为3x3步长为2的filter进行最大池化
- 尺寸:6x6x256
- 计算过程:(13-3)/2 +1 =6
- 深度跟上一层相同,例如256,是因为每一层的池化操作都是独立进行的。
-
第9层:有4096个神经元的全连接层
- 在这一层,输入6x6x256 = 9216个像素,
- 用4096个尺寸为6x6x256的filter对这些数据进行卷积运算
- 输出4096个神经元
- 权重取决于反向传播。
-
第10层:有4096个神经元的全连接层
- 跟上一次层相似
- 输出的4096个数据与本层的4096个神经元进行全连接
-
第11层:有1000个神经元的全连接层
- 这是最后的一层,上一层输出的4096个数据与本层的1000个神经元进行全连接
- 输出1000个神经元,因为IMAGENET有1000个待预测类别
关于全连接层
全连接层在整个卷积神经网络中起到“分类器”的作用,可由卷积操作实现。对于前一层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积,h和w分别代表前一层卷积结果的高和宽。对于前一层是全连接的全连接层可以转化为卷积核为1x1的卷积。
全连接层的核心操作是矩阵向量乘积,本质就是由一个特征空间线性变换到另一个特征空间,可以把有用的信息提取整合。再加上激活函数的非线性映射,多层全连接理论上可以模拟任何非线性变换。
全连接层的一个作用是维度变换,尤其是可以把高维变到低维,同时把有用的信息保留下来。
N个节点的全连接可近似化为N个模板卷积后的平均池化(global average pooling ,GAP),一些近期的的网络模型如ResNet和GoogleNet等均用GAP取代全连接层来融合学到的深度特征,用GAP代替全连接层通常有较好的预测性能。
网友评论