对CNN各层的深入理解以及BP中的权重变化

作者: 吴祺育的笔记 | 来源:发表于2018-12-21 18:53 被阅读0次

对CNN各层的深入理解以及BP中的权重变化
BP神经网络——Python简单实现三层神经网络（Numpy）
深度学习——RNN（1）
CNN简易教程
CNN
Caffe 架构学习-底层数据2
React 深入系列4：组件的生命周期
React 深入系列1：React 中的元素、组件、实例和节点
React 深入系列3：Props 和 State
React 深入系列2：组件分类

继续温故，CNN篇。这次重新思考的是CNN中每层的作用，以及之前没有思考过的BP中梯度更新的过程。

CNN的结构

最典型的CNN的结构是由如若干个卷积层+池化层，再接若干个（一般一到两个）全连接层组成。

总的来说，这个最典型的CNN结构，终究是起到一个分类器的作用。

卷积层做不同特征提取，采样层负责选择相应的特征，全连接层负责分类。

卷积层

卷积运算这里就不讲了，这里讲一下filter。filter对应的神经网络的概念其实是权重，filter矩阵和图像的单通道像素值进行点成，最后将多个通道的结果求sum，作为一个filter的卷积结果，这就是为什么filter的depth，可以理解为下一层中的通道数。

有几个点注意：

为什么要将不同通道的结果最后相加呢？这里可以理解为filter对不同的颜色通道做卷积得到的是一个特征的分量，最后将所有特征分量相加才是一个完整的feature map。
如果识别一张人脸，肯定是眼睛下面是鼻子，下面是嘴巴，倒过来也是嘴巴下面是鼻子，鼻子字面是眼睛。图像是存在空间位置关系的，所以滑动窗口是从左往右，从上往下。stride会是遗失部分信息，如果保证在一个合理小的范围内，但是这个并不影响结果
为什么要padding？padding可以让我们获取图像边缘更多的信息，另外控制卷积后的feature map的size

池化层

池化层的的运作方式可以这样理解：一个2*2的卷积核，这个卷积核不是做卷积运算，而是取最大值（平均值）。

Pooling层说到底还是一个特征选择，信息过滤的过程，也就是说我们损失了一部分信息，这是一个和计算性能的一个妥协，随着运算速度的不断提高，我这个按道理说会妥协会越来越小。现在有些网络就开始少用或者不用pooling了。

池化的常见方法分为max pooling，average pooling。

采用max pooling，最主要的作用是提高空间不变性。因为一个像素不管最大值上在池化框内的哪个位置，都可以取到最大值。

average pooling，就是将池化框内的值求平均，这样做的好处可以减少池化框大小带来的误差，更多的保留背景信息。
而max pooling是减少卷积层权值参数的误差，更多的保留纹理信息。

全连接层（FC）

以两层全连接层为例，主要有三个问题。

最后一个池化层的结果怎么连接上FC的？
这个问题，在Keras中的代码结构是加了一个Flatten操作（展平），比如把一个（n * w * h）的变成一个（1 * 1 * nwh）的向量结构（可以理解为3D -> 2D），（nwh）是神经元个数。

这里也可以换种理解方式，比如说最后一层卷积可得输出为77512，FC层含4096个神经元。感觉到不对啊，77512（这个数值是编的，应该是25644）是怎么展都展平不了到4096啊。

pooling层到FC层中间做了一个卷积，如下图所示。

因为有4096个神经元，实际就是用一个3x3x5x4096的卷积层去卷积激活函数的输出。这些filter是训练过程中更新的。

第一个FC层的作用是什么？
pooling到FC层，中间做的这个flatten（卷积），其实是把前面卷积提取到的抽象特征（“分布式特征表示”Distributed Feature Representation，论文里是这么说的，什么鬼其实我也不太懂），映射到标记好的样本空间的一个过渡。因为我们标记的是分类结果，而pooling输出的feature map，这中间必然有个映射关系。
第二个FC层有什么用？
其实到这一步就可以理解为神经网络（MLP）的结构的后两层了。特征都是标记样本空间的特征，最后做一个softmax的分类就OK。

因为FC层参数特别多，占到整个CNN中参数的80%左右，所以一些网络（ResNet和GoogLeNet等）取消了全连接层。全卷积神经网络（FCN）将最后的FC层都换成用1*1的卷积核做的卷积，最后分类。

向后传播过程中的权值变化

CNN梯度下降中的求导公式太多，具体我推荐两个博客：
https://www.cnblogs.com/pinard/p/6494810.html （非常详细，一下公式就是在这篇博客里面摘出来的）
https://www.jefkine.com/general/2016/09/05/backpropagation-in-convolutional-neural-networks/ （外国小哥的推导，图文并茂）

我这里写卷积层和池化层的向前推导，因为以前没太弄明白是怎么回事，全连接层的反向求导和mlp中的一样。

卷积层的向前求导

这里是一个卷积核的求导过程

假设我们输入a是4x4的矩阵，卷积核W是3x3的矩阵，输出z是2x2的矩阵,那么反向传播的z的梯度误差δ也是2x2的矩阵。卷积过程实际上是以下的式子：
　 $\left( \begin{array}{ccc} a_{11}&a_{12}&a_{13} \\ a_{21}&a_{22}&a_{23}\\ a_{31}&a_{32}&a_{33} \end{array} \right) * \left( \begin{array}{ccc} w_{11}&w_{12}\\ w_{21}&w_{22} \end{array} \right) = \left( \begin{array}{ccc} z_{11}&z_{12}\\ z_{21}&z_{22} \end{array} \right)$
　既：
　 $z_{11} = a_{11}w_{11} + a_{12}w_{12} + a_{21}w_{21} + a_{22}w_{22}$
　 $z_{12} = a_{12}w_{11} + a_{13}w_{12} + a_{22}w_{21} + a_{23}w_{22}$
　 $z_{21} = a_{21}w_{11} + a_{22}w_{12} + a_{31}w_{21} + a_{32}w_{22}$
　 $z_{22} = a_{22}w_{11} + a_{23}w_{12} + a_{32}w_{21} + a_{33}w_{22}$

对a求导，即为

$\nabla a^{l-1} = \frac{\partial J(W,b)}{\partial a^{l-1}} = \frac{\partial J(W,b)}{\partial z^{l}} \frac{\partial z^{l}}{\partial a^{l-1}} = \delta^{l} \frac{\partial z^{l}}{\partial a^{l-1}}$

可以求出9个式子：

$\nabla a_{11} = \delta_{11}w_{11}$
$\nabla a_{12} = \delta_{11}w_{12} + \delta_{12}w_{11}$
等等

最后用矩阵表示出来是：
$\left( \begin{array}{ccc} 0&0&0&0 \\ 0&\delta_{11}& \delta_{12}&0 \\ 0&\delta_{21}&\delta_{22}&0 \\ 0&0&0&0 \end{array} \right) * \left( \begin{array}{ccc} w_{22}&w_{21}\\ w_{12}&w_{11} \end{array} \right) = \left( \begin{array}{ccc} \nabla a_{11}&\nabla a_{12}&\nabla a_{13} \\ \nabla a_{21}&\nabla a_{22}&\nabla a_{23}\\ \nabla a_{31}&\nabla a_{32}&\nabla a_{33} \end{array} \right)$

看到没有，这里的w和之前矩阵公式里的那个w有一个对角翻转。
所以我们得到一个核心的卷积层求梯度的公式：

$\delta^{l-1} = \delta^{l}\frac{\partial z^{l}}{\partial z^{l-1}} = \delta^{l}*rot180(W^{l}) \odot \sigma^{'}(z^{l-1})$

卷积核被旋转了180度，即式子中的rot180()。

池化层的向前求导

pooling层可以这样理解，如果是max pooling，就是一个最大选择，将小的数都丢掉了，实际上这就相当于dropout类似的意义。所以我们只需要关注对没有丢弃的元素做反向求导。

average pooling的话，就是把所有子矩阵的各个池化局域的值取平均后放在还原后的子矩阵位置。这个过程一般叫做upsample。具体可以参考我给出的第一个博客，里面的解释非常详细。

对CNN各层的深入理解以及BP中的权重变化
继续温故，CNN篇。这次重新思考的是CNN中每层的作用，以及之前没有思考过的BP中梯度更新的过程。 CNN的结构 ...
BP神经网络——Python简单实现三层神经网络（Numpy）
BP神经网络（BPNN）基本由以下组件组成：输入层隐藏层输出层各层之间的权重每个隐藏层的激活函数（此中将用Sig...
深度学习——RNN（1）
前言：为什么有BP神经网络、CNN，还需要RNN? BP神经网络和CNN的输入输出都是互相独立的，也就是说它模拟了...
CNN简易教程
在学习CNN之前，必须对BP神经网络有所了解这样才能更好的理解其架构和框架。这里有一篇博客写的比较通俗易懂，分享给...
CNN
和BP网络不同的是，cnn的特点是权值共享（卷积核filter），并且不需要人工的特征分析。在BP网络中，我们使...
Caffe 架构学习-底层数据2
Net 完整的CNN模型模型描述文件（prototxt）模型权重（caffemodel） Net中的Blob分...
React 深入系列4：组件的生命周期
React 深入系列，深入讲解了React中的重点概念、特性和模式等，旨在帮助大家加深对React的理解，以及在项...
React 深入系列1：React 中的元素、组件、实例和节点
React 深入系列，深入讲解了React中的重点概念、特性和模式等，旨在帮助大家加深对React的理解，以及在项...
React 深入系列3：Props 和 State
React 深入系列，深入讲解了React中的重点概念、特性和模式等，旨在帮助大家加深对React的理解，以及在项...
React 深入系列2：组件分类
React 深入系列，深入讲解了React中的重点概念、特性和模式等，旨在帮助大家加深对React的理解，以及在项...