反向传播

作者: 诚中 | 来源:发表于2022-08-14 08:47 被阅读0次

手推CNN，DNN算法流程和反向传播
神经网络之反向传播（BP）算法代码实现
Deep learning-Lecture 2
神经网络之反向传播算法（BP）详细公式推导
神经网络
反向传播算法之要点(Backpropagation)
机器学习基础之反向传播
TensorFlow系列专题（五）：BP算法原理
神经网络的反向传播算法
反向传播

以前很长一段时间都以为反向传播只不过是链式法则而已，对其理解并不是很到位。
前期组会做presentation的时候，终于对其有了深入的理解，反向传播的其实是结点误差，有了结点误差，就可以迅速更新梯度了（理解了这个，pytorch里面优化器更新模型参数的两个操作就很好理解了）。下面我们一起来看看吧。

1.模型介绍

为方面介绍反向传播，我们简化模型，如下图所示。其中 $x_{i}$ 是输入，结点按顺序标记1、2、3、..9； $a_{i}$ 是第 $i$ 个结点经过激活函数的输出，默认采用 $sigmoid$ 激活函数； $w_{ij}$ 表示 $node_{j}$ 到 $node_{i}$ 的权重，4、5、6...9结点均有偏置，分别为 $b_{4}、b_{5}、b_{6}...b_{9}$ （未在图中标记）；模型输出为 $a_{8}、a_{9}$ ，图中的 $y_{1}、y_{2}$ 为 $x$ 真实标记；损失函数采用误差平方，前面的0.5是为了求导方便；学习算法采用随机梯度下降法(SGD)。

图1 模型介绍

2.前向传播

前向传播是很简单的，我们的重点不仅仅在于写出单个结点的代数式，更重要的是矩阵的表示。
对于 $a_{4}、a_{8}$ 的计算如图2、3所示。

图2 a4的计算

图3 a8的计算
由此，我们可以整合下

a_{4}、a_{5}、a_{6}、a_{7}

的表达式，如图4所示。观察4个代数式可以轻松的写出对应矩阵形式，如图5所示。

图4 第一隐藏层结点输出

图5 第一隐藏层结点输出矩阵写法
同理，我们可以飞快地写出第二个隐藏层节点输出的矩阵写法，如图6所示。

图6 第二隐藏层结点输出矩阵写法

3.反向传播

如果不熟悉链式法则 $ClainRule$ ，图7是一个简单的示例，即将用换元方式对复杂函数求导，简化计算的方法。

图7 clain rule
下面就是重点了，我们先对

w_{84}

求偏导，结果如图8所示，

E

是损失，即图1中的

loss

。我们将

\frac{\partial E }{\partial a_{8} }

定义为

e_{8}

，直观的看，结点8的误差确实是

a_{8}-y_{1}

。这么定义现在看起来好像多此一举，但从后面链接的更新来看，这个定义既是形象的且更新时计算也是高效的。

图8 w84的梯度
同理，我们可以计算出

\frac{\partial E }{\partial w_{85} }、\frac{\partial E }{\partial a_{86} }、\frac{\partial E }{\partial a_{87} }、\frac{\partial E }{\partial a_{94} }、\frac{\partial E }{\partial a_{95} }、\frac{\partial E }{\partial a_{96} }、\frac{\partial E }{\partial a_{97} }

，图9选择了几个进行计算。随后观察对应的代数式，可以将其写成矩阵形式，如图10所示。

图9 第二层部分权重梯度的计算

图10 第二层权重梯度矩阵
差点漏了第二个隐藏层偏置梯度的计算了，让我们把它们俩补上去，计算方法是一模一样的，结果如图11所示，图12是其矩阵表示。

图11 第二个隐层偏置梯度计算

图12 第二个隐层偏置梯度矩阵表示.png
终于，我们

k.o

掉了第二个隐层的权重、偏置的梯度。我们准备刷第一个隐层的权重、偏置的梯度，让我们考虑

\frac{\partial E }{\partial w_{41} }

，其结果如图13所示，结合图8结点误差的定义，可以得到

\frac{\partial E }{\partial a_{4} }

为

e_{4}

(即4号结点误差)。同理，可以迅速求出该层其他链接的梯度，如图14，图15所示，而图16，图17分别是对应的矩阵的写法。

图13 w41的梯度

图14 第一层隐层链接更新公式

图15 第一层隐层偏置更新公式

图16 第一层隐层链接更新公式矩阵写法

图17 第一层隐层偏置更新公式矩阵写法
可以看到，通过定义

e_{i}

，我们可以用矩阵乘法的形式写出权重、偏置的梯度。那么我们再把第一层结点误差求出来，结果如图18所示。从该式可以看出，前一层节点误差是后一层结点误差的线性组合，即前一层结点误差依赖于后一层结点误差。别忘了链接、偏置梯度是依赖于当层结点误差的，换言之，你告诉我某一层结点误差，我可以秒算出对应层链接、偏置的梯度值。

图18 第一层节点误差
因此，我们的结论是只要计算每一层的结点误差，就可以秒算链接的梯度；前一层结点误差依赖于后一层结点误差；故而，在更新网络的链接时，我们可以考虑分两步走，先反向传播每一层结点误差（前一层依赖于后一层，故而反向计算方便得多），再利用结点误差秒算出对应层链接的梯度（从后往前，逐层更新），这与pytorch中优化器的两步操作也是对应的。
下述图是正向传播、反向传播的一个overview。

图19 正向传播（输入实例特征）

图20 正向传播（第一层隐层）

图21 正向传播（第二层隐层）

图22 反向传播（末层结点误差）

图23 反向传播（第一层结点误差）

图24 更新链接权重（未层链接权重）

图25 更新链接权重（第一层链接权重）

4.总结

希望读者通过此文，能理解反向传播的过程。step1，反向传播每一层结点误差；step2，更新每一层链接的权重。(当时做presentation的ppt是有存稿的，如有需要，可以contract。)

5.参考文献

[1] 塔里克·拉希德.python神经网络编程.
[2] 零基础入门深度学习(3) - 神经网络和反向传播算法.
[3] 李宏毅.2021春机器学习课程.
[4] 3Blue1Brown.What is backpropagation really doing?
[5] 陈希孺.概率论与数理统计.
[6] 吴恩达.深度学习.
[7] “反向传播算法”过程及公式推导（超直观好懂的Backpropagation）

手推CNN，DNN算法流程和反向传播
DNN 反向传播 DNN算法流程卷积层反向传播池化层反向传播 C NN算法流程
神经网络之反向传播（BP）算法代码实现
反向传播算法实战本次的反向传播算法是基于上篇文章神经网络之反向传播算法（BP）详细公式推导实现的，如果对反向传播...
Deep learning-Lecture 2
*反向传播 *Word representation *Sequence modeling *反向传播 Revie...
神经网络之反向传播算法（BP）详细公式推导
反向传播算法详细推导反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种...
神经网络
神经网络的正向&&反向传播通过正向传播后得到的误差来进行反向传播，反向传播时通过求导的方式更新权值，获得误差更小...
反向传播算法之要点(Backpropagation)
反向传播算法之要点(Backpropagation Algorithm) Introduction 反向传播是一个...
机器学习基础之反向传播
机器学习基础二-反向传播神经网络之所以可以训练，得益于与Hinton在1986年提出的反向传播算法。反向传播背后...
TensorFlow系列专题（五）：BP算法原理
一．反向传播算法反向传播算法[1]（Backpropagation Algorithm，简称BP算法）是深度学习...
神经网络的反向传播算法
1. 前言本文为学习反向传播算法时的总结。 2. 反向传播算法 2.1 示例及初始数据举例说明反向传播算法的计...
反向传播
如何让多层神经网络学习呢？我们已了解了使用梯度下降来更新权重，反向传播算法则是它的一个延伸。以一个两层神经网络为例...