AlexNet

作者: Glenn_ | 来源:发表于2018-10-28 20:42 被阅读0次

    AlexNet

    AlexNet

    首先对CNN有一个大致功能的初步理解:(1)一个图像经过卷积层提取特征(从图中可以看到,上一层的临近区域几个像素点的属性特征被浓缩到下一层的一个点,因此卷积到最后,最后一层的张量,就可以代表原图像的特征),(2)接着通过全连接层,这里理解成习得特征分布,输出即是分布值。其实这部分相当于矩阵乘法,即以期望用一个参数非常多的非线性函数来拟合刚才提取的图像特征 分布。最后一层卷积层13*13*256相当于X(43264*1的列向量),每一层全连接层相当于W(4096*43264的参数矩阵),输出结果就是WX+b。

    Image -> Conv1 -> Max Pooling1 -> Norm1

                -> Conv2 -> Max Pooling2 -> Norm2

                -> Conv3

                -> Conv4

                -> Conv5 -> Max Pooling3

                -> FC6

                -> FC7

                -> FC8

    引用自黎明NB

    [ReLU、LRN] 每一个卷积层中包含了激励函数ReLU以及局部响应归一化(LRN)处理。

    ReLU

    (1)ReLU可以防止梯度消失,以往像sigmod、tanh这些激活函数,会有梯度消失现象。因为例如sigmod的导数值范围是(1,1/4),这样在层数很深的时候,反向传播过程中导数传播值会变成0,(1/4)^n≈0,当n很大时。

    (2)LRN用作归一化,但以后一般很少用了。以后用得多的像batchnorm,这样有一篇讲batchnorm的不错的文章。Batchnorm基础

    [Dropout] 全连接层用了Dropout来做正则化。Dropout对每个节点以概率p使之失能,相当于一个集成学习的方法


    Question 1: 为什么越早期的神经网络中卷积核都是比较大,而往后卷积核是变小的趋势?

    Answer 1: 因为早起的图像分辨率比较低,即图像中特征信息相对稀疏,用小的卷积核并不能提取到好的特征,所以需要用到大的卷积核。

    Question 2: 2个3*3的卷积核层和1个5*5的卷积核层的区别?

    Answer 2: 2个3*3的卷积核的感受野是5,1个5*5的卷积核感受野也是5,所以感受特征的能力是一样的。但是2个3*3的卷积核所需要的参数比5*5的要小很多(3*3*2 < 5*5),同时层数多了一层,能更好地表达非线性性。


    参考

    只win一手头铁

    【文章会持续更新完善】

    相关文章

      网友评论

          本文标题:AlexNet

          本文链接:https://www.haomeiwen.com/subject/nopdtqtx.html