说说卷积神经网络(2):AlexNet

作者: 晚晴风_ | 来源:发表于2018-04-09 21:00 被阅读34次

    上文说了CNN的基本结构,今天说说AlexNet,这也是一种典型的CNN网络,虽然有一点年份了。AlexNet是Alex在2012年提出的一种网络结构,并且获得了 IMAGENET Challenge 2012图像识别大赛的冠军。这是最有名的计算机视觉挑战赛,使得CNN成为图像分类上的核心算法模型。而2012年是深度神经网络第一次在该比赛中被使用。

    该网络的运行结果比之前的传统解决方法好很多。详细的介绍在这篇论文里.

    AlexNet网络结构

    包括11层卷积神经网络,结构如下:


    fig-8.png

    这里可以看到输入和输出之间有11层,每一层的输出是下一层的输入。

    • 第0层:输入图像

      • 尺寸:227x227x3
      • 注意:在上文的论文中图像的尺寸是224x224x3这可能是个印刷错误
    • 第1层:使用96个大小为11x11,步长为4的filter进行卷积

      • 尺寸:55x55x96
      • 计算过程:(227-11)/4 + 1 = 55
      • 深度为96是因为1维对应着一个filter,一共有96个filter
    • 第2层:使用尺寸为3x3步长为2的filter进行最大池化

      • 尺寸:27x27x96
      • 计算过程:(55-3)/2 +1 =27
      • 深度跟上一层相同,例如96,是因为每一层的池化操作都是独立进行的。
    • 第3层:使用256个尺寸为5x5步长为1,边缘填充(padding)为2的filter进行卷积

      • 尺寸:27x27x256
      • 因为padding是(5-1)/2 =2,所以图像的尺寸没有发生变化。
      • 深度为256是因为有256个filter。
    • 第4层:使用尺寸为3x3步长为2的filter进行最大池化

      • 尺寸:13x13x256
      • 计算过程:(27-3)/2 +1 =13
      • 深度跟上一层相同,例如256,是因为每一层的池化操作都是独立进行的。
    • 第5层:使用384个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积

      • 尺寸:13x13x384
      • 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
      • 深度为384是因为有384个filter。
    • 第6层:使用384个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积

      • 尺寸:13x13x384
      • 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
      • 深度为384是因为有384个filter。
    • 第7层:使用256个尺寸为3x3步长为1,边缘填充(padding)为1的filter进行卷积

      • 尺寸:13x13x256
      • 因为padding是(3-1)/2 =1,所以图像的尺寸没有发生变化。
      • 深度为256是因为有256个filter。
    • 第8层:使用尺寸为3x3步长为2的filter进行最大池化

      • 尺寸:6x6x256
      • 计算过程:(13-3)/2 +1 =6
      • 深度跟上一层相同,例如256,是因为每一层的池化操作都是独立进行的。
    • 第9层:有4096个神经元的全连接层

      • 在这一层,输入6x6x256 = 9216个像素,
      • 用4096个尺寸为6x6x256的filter对这些数据进行卷积运算
      • 输出4096个神经元
      • 权重取决于反向传播。
    • 第10层:有4096个神经元的全连接层

      • 跟上一次层相似
      • 输出的4096个数据与本层的4096个神经元进行全连接
    • 第11层:有1000个神经元的全连接层

      • 这是最后的一层,上一层输出的4096个数据与本层的1000个神经元进行全连接
      • 输出1000个神经元,因为IMAGENET有1000个待预测类别
    关于全连接层

    全连接层在整个卷积神经网络中起到“分类器”的作用,可由卷积操作实现。对于前一层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积,h和w分别代表前一层卷积结果的高和宽。对于前一层是全连接的全连接层可以转化为卷积核为1x1的卷积。

    全连接层的核心操作是矩阵向量乘积,本质就是由一个特征空间线性变换到另一个特征空间,可以把有用的信息提取整合。再加上激活函数的非线性映射,多层全连接理论上可以模拟任何非线性变换。

    全连接层的一个作用是维度变换,尤其是可以把高维变到低维,同时把有用的信息保留下来。

    N个节点的全连接可近似化为N个模板卷积后的平均池化(global average pooling ,GAP),一些近期的的网络模型如ResNet和GoogleNet等均用GAP取代全连接层来融合学到的深度特征,用GAP代替全连接层通常有较好的预测性能。

    参考:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/

    相关文章

      网友评论

        本文标题:说说卷积神经网络(2):AlexNet

        本文链接:https://www.haomeiwen.com/subject/lslwhftx.html