卷积神经网络的反向传播

作者: zuomeng844 | 来源:发表于2020-09-01 21:58 被阅读0次

CNN反向传播推倒
深度学习中的逆卷积
Lecture 6 训练神经网络（上）
卷积神经网络（CNN）
[手把手系列之三]使用numpy搭建卷积神经网络
作业2：反向传播、训练神经网络和卷积神经网络
深度学习资源链接
深度学习笔记（二）卷积神经网络
深度学习-序
《零基础入门深度学习》by hanbingtao 链接地址

1.DNN的反向传播

首先回顾深度神经网络（DNN）的反向传播

forward： $a^L=\sigma (z^L)=\sigma( w^La^{L-1}+b^L)$

Loss Function: $J=\frac{1}{2} ||a^L-y||^2$

backward:

w的梯度：

b的梯度：

令： $\delta^L=\frac{\partial J}{\partial z^L} =(a^L-y)\odot \sigma$

已知 $\delta^L$ ，推导上一层 $\delta^{L-1}$ ：

2.CNN的前向传播

2.1卷积层

(1)单通道（极简情况）

为了简单起见，设输入X为3* 3，单通道，卷积核K为2*2，输出Y为2*2，单通道。 $XconvK=Y$ ，即：

在计算时会转化为：

所以，卷积运算最终转化为矩阵运算。即X、K、Y变形在之后对应矩阵变为XC、KC、YC，则 $YC=XC\cdot KC$

Y和K只要reshape一下就可以了，但X需要特别处理，这个处理过程叫im2col（image to column），就是把卷积窗口中的数拉成一行，每行 $k^2$ 列，共（X.w-k+1)（X.h-k+1)行。

（2）多通道（实际情况）

下面是一张被广泛引用的说明图，图中显示的输入是3通道（3层，比如R、G、B共3个channel），输出是2通道（channel），于是总共有3*2=6个卷积核，每个核有4个元素，3*4=12，所以6个卷积核排成一个12*2的核矩阵，即为权重矩阵，把这6个KC的组合(权重矩阵)记为WC。

图中最底下一行表示两个矩阵乘积运算，就是卷积层的前向传播算法。实际编码时还会加上偏置，而且还要考虑Batchs。

如图中所示，如果输入的维度为 $B,H,W,C_{in}$ ，那么 $WC_{[k,k,C_{in},C_{out}]}\implies WC_{[k*k*C_{in},C_{out}]}$

上图中显示的乘法维度是： $X_{[B,(H-k+1)*(W-k+1),k*k*C_{in}]}\cdot WC_{[k*k*C_{in},C_{out}]}=Y_{[B,(H-k+1)*(W-k+1),C_{out}]}$

最后将 $Y_{[B,(H-k+1)*(W-k+1),C_{out}]}\implies reshpe\implies Y_{[B,(H-k+1),(W-k+1),C_{out}]}$ 即可

2.2池化层

池化（Pooling）：也称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。主要有：

Max Pooling：最大池化

Average Pooling：平均池化

3.CNN的反向传播

3.1池化层

池化层的反向传播比较容易理解，我们以最大池化举例，上图中，池化后的数字6对应于池化前的红色区域，实际上只有红色区域中最大值数字6对池化后的结果有影响，权重为1，而其它的数字对池化后的结果影响都为0。假设池化后数字6的位置误差为 $\delta$ 误差反向传播回去时，红色区域中最大值对应的位置误差即等于 $\delta$ ，而其它3个位置对应的 $\delta$ 误差为0。因此，在卷积神经网络最大池化前向传播时，不仅要记录区域的最大值，同时也要记录下来区域最大值的位置，方便误差的反向传播。

而平均池化就更简单了，由于平均池化时，区域中每个值对池化后结果贡献的权重都为区域大小的倒数，所以误差反向传播回来时，在区域每个位置的误差都为池化后误差 $\delta$ 除以区域的大小。

3.2 卷积层

由前面的前向传播可知卷积核的计算为： $YC=XC\cdot KC$

记：

在反向传播中, $\delta$ 是从后面一层（一般是激活函数层或池化层）传过来的，是一个已知量，在此基础上求 $\nabla K,\nabla X,\nabla b$

1.求 $\nabla K$

$\nabla KC= XC^T\nabla YC$

$\nabla KC$ 只需要reshape一下就可以得到 $\nabla K$

2.求 $\nabla X$

根据反向传播公式， $\nabla XC = \nabla YC \cdot KC^T$

但是从 $\nabla XC$ 还原到 $\nabla X$ 并非易事，im2col的逆映射计算复杂度高得不能接受，要计算 $\nabla X$ 还得另寻它途。

下面是新的计算方式的推导：

根据前向传播：

可以计算每个 $x_{ij}$ 的导数：

所以：

3.求 $\nabla b$

我们的 $b$ 是一个列向量，它给卷积结果的每一个通道都加上同一个标量。因此，在反向传播时，它的导数等于卷积结果的 $\delta$ 误差在每一个通道上将所有 $\delta$ 误差进行求和的结果，即： $\nabla b = \sum_{x} \sum_{y}\delta$

总结

由于简书有些公式支持的不好，所以有些地方我用了截图，如果有读不懂的，可以在评论区回复邮箱，我把word版发给你们。另外，如果大家发现我有地方写得不对或者有疑问的，麻烦评论，我会回复并改正

CNN反向传播推倒
Refence 刘建平博士卷积神经网络(CNN)反向传播算法
深度学习中的逆卷积
知乎@张萌逆卷积相对于卷积在神经网络结构的正向和反向传播中做相反的运算。逆卷积(Deconvolution)比较...
Lecture 6 训练神经网络（上）
目前我们已有的知识有：计算图：计算前向传播、反向传播神经网络：神经网络的层结构、非线性函数、损失函数卷积神经...
卷积神经网络（CNN）
BP神经网络简介信息的正向传播与误差的反向传播梯度下降算法修正权值收敛慢，冗余，过拟合卷积神经网络存在包...
[手把手系列之三]使用numpy搭建卷积神经网络
主要内容来自DeepLearning.AI的卷积神经网络本文使用numpy实现卷积层和池化层，包括前向传播和反向...
作业2：反向传播、训练神经网络和卷积神经网络
在本作业中（2018版），将练习编写反向传播代码，训练神经网络和卷积神经网络。本作业的目标如下：理解神经网络及其...
深度学习资源链接
1、感知机 2、线性单元和梯度下降 3、神经网络和反向传播算法 4、卷积神经网络 5、循环神经网络 6、长短时记忆...
深度学习笔记（二）卷积神经网络
在接触卷积神经网络以前，我们学习的神经网络，叫全连接神经网络，见深度学习笔记（一）感知器、梯度下降、反向传播。并且...
深度学习-序
文章列表 (1) 深度学习-感知器(2)线性单元和梯度下降(3)神经网络和反向传播算法(4)卷积神经网络(5)循环...
《零基础入门深度学习》by hanbingtao 链接地址
1.感知器2.线性单元和梯度下降3.神经网络和反向传播算法4.卷积神经网络5.循环神经网络

卷积神经网络的反向传播

1.DNN的反向传播

2.CNN的前向传播

2.1卷积层

2.2池化层

3.CNN的反向传播

3.1池化层

3.2 卷积层

总结

相关文章

CNN反向传播推倒

深度学习中的逆卷积

Lecture 6 训练神经网络（上）

卷积神经网络（CNN）

[手把手系列之三]使用numpy搭建卷积神经网络

作业2：反向传播、训练神经网络和卷积神经网络

深度学习资源链接

深度学习笔记（二）卷积神经网络

深度学习-序

《零基础入门深度学习》by hanbingtao 链接地址

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读