2020-01-02 新年从反向传播4个公式推导开始

作者: 闲后美梦 | 来源:发表于2020-01-02 00:51 被阅读0次

2020-01-02 新年从反向传播4个公式推导开始
神经网络之反向传播（BP）算法代码实现
反向传播公式推导
深度学习 - 前向传播和反向传播
卷积反向传播公式推导
神经网络之反向传播算法（BP）详细公式推导
卷积层和pooling层如何参与梯度回传的
反向传播推导
反向传播算法推导-卷积神经网络
LSTM和GRU 及反向传播公式推导

1 S型神经元

修改权重和偏置的微小改动只会引起输出的微小变化

x1 --+
     |        +-------+
     +------->+       |
              |       |
x2 ---------->+       +------> output
              |       |
     +------->+       |
x3 --+        +-------+

S型神经元有多个输入，x1,x2,... , xi ∈[0,1]， $\sigma= \omega \cdot x+b$
这里 $\sigma$ 称为S型函数定义为
$\sigma(z)\equiv\frac{1}{1+e^{-z}}$

代价函数
$C(\omega,b)\equiv\frac{1}{2n}\sum\limits_{x}\|y(x)-a\|^2 \tag{6}$

$\omega$ 表示网络中的权重的集合

$b$ 是所有的偏置

$n$ 是训练输入的个数

$a$ 是表示当输入为 $x$ 时输出的向量

我们想要找到的是 $C$ 的最小值, $C$ 的梯度为

$\Delta C \approx \frac{\partial C}{\partial v_1}\Delta v_1+ \frac{\partial C}{\partial v_2} \Delta v_2 \tag{7}$

定义 $C$ 的梯度为偏导数的向量， $(\frac{\Delta C}{\Delta v_1},\frac{\Delta C}{\Delta v_2})^T$ ，用 $\triangledown C$ 表示梯度向量
$\triangledown C \equiv (\frac{\Delta C}{\Delta v_1},\frac{\Delta C}{\Delta v_2})^T \tag {8}$

$\Delta C \equiv \triangledown C \cdot \Delta v \tag {9}$

假设:
$\Delta v = -\eta \triangledown C \tag{10}$

这里 $\eta$ 是一个很小的正数（称为学习速率）

(10)带入(9)
$\Delta C \approx -\eta \triangledown C \cdot \triangledown C = -\eta \|\triangledown C\|^2$ , 由于 $\|\triangledown C\|\geq0$ ，这保证了 $\Delta C \leq 0$

$v \to {v}' = v - \eta\triangledown C \tag{11}$

                    2

 1                  ---
                   /   \
                   \   /
 ---                ---
/   \                                   3
\   / +---------->
 ---                                    ---
                    ---                /   \
                   /   \  +----------> \   /
 ---               \   /                ---
/   \               ---
\   / +----------->
 ---                                     ---
                    ---                 /   \
                   /    \  +----------> \   /
 ---               \ b23/                ---
/   \               ---
\   / +---------->
 ---
                    ---
                   /   \
                   \   /
                    ---

$\omega_{jk}^l$ 表示从 $(l-1)^{th}$ 层的 $k^{th}$ 个神经元到 $l^{th}$ 层的 $j^{th}$ 个神经元的连接上的权重

$b^l_j$ 表示在 $l^{th}$ 层第 $j^{th}$ 个神经元的偏置

$a^l_j$ 表示 $l^{th}$ 层第 $j^{th}$ 个神经元的激活值

$a_j^l = \sigma (\sum_k {\omega_{jk}^l a_k^{l-1}}+ b_j^l) \tag{23}$

公式向量化
$a^l = \sigma ({\omega^l a^{l-1}}+ b^l) \tag{25}$

中间量 $z^l$ ,为 $l$ 层神经元的带权输入
$z^l = {\omega^l a^{l-1}}+ b^l \tag{26}$
$z_j^l = \sum_k {\omega_{jk}^l a_k^{l-1}}+ b_j^l$

我们定义 $l$ 层的第 $j^{th}$ 个神经元的误差为
$\delta_j^l \equiv \frac{\partial C}{ \partial z_j^l} \tag{29}$

二次代价函数，单独的训练样本 $x$ 的二次代价函数
$C = \frac{1}{2}\|y-a^L\|^2 = \frac{1}{2}\sum_j{(y_j - a_j^L)}^2 \tag{6}$

Hadamard 乘积， $s \odot t$
按元素乘积

$\begin{bmatrix} 1 \\ 2 \end{bmatrix}\odot \begin{bmatrix} 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 1*3 \\ 2*4 \end{bmatrix} = \begin{bmatrix} 3 \\ 8 \end{bmatrix} \tag{28}$

输出层误差方程 $\delta^L$
$\delta_j^L = \frac{\partial C}{\partial a_j^L}{\sigma}'(z_j^L) \tag{BP1}$

$\partial C/ \partial a_j^L$ 表示代价随着 $j^{th}$ 输出激活值的变化而变化的速度，
如果 $C$ 不太依赖一个特定的输出神经元 $j$ ，那么 $\delta_j^L$ 就会很小，这也是我们想要的效果

${\delta}'(z_j^L)$ 刻画了在 $z_j^L$ 处激活函数 $\sigma$ 变化的速度

具体事例: 代价函数为二次函数
$C=\frac{1}{2}\sum_j (y_j-a_j)^2$ 所以 $\partial C/ \partial a_j^L = (a_j - y_i)$

$\sigma^L = \triangledown_a C \odot {\sigma}'(z^L) =(a^L - y) \odot {\sigma}'(z^L) \tag{BP1a}$

使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^l$

$\delta^l = ((\omega^{l+1})^T \delta^{l+1}) \odot {\sigma}'(z^l) \tag{BP2}$

其中 $(\omega^{l+1})^T$ 是 $(l+1)^{th}$ 层权重矩阵 $\omega^{l+1}$ 的转置

代价函数关于网络中任意偏置的改变率
$\frac{\partial C}{\partial b_j^l} = \delta_j^l \tag{BP3}$

简记为:
$\frac{\partial C}{\partial b} = \delta \tag{31}$
代价函数关于任何一个权重的改变率
$\frac{\partial C}{\partial \omega_{jk}^l} = a_k^{l-1}\delta_j^l \tag{BP4}$

简化:
$\frac{\partial C}{\partial \omega} = a_{in}\sigma_{out}$

其中 $a_in$ 是输入给权重 $\omega$ 的神经元的激活值， $\sigma_{out}$ 是输出自权重 $\omega$ 的神经元的误差

 in             out
 ---           ---
/   \    w    /   \
\   /  -----  \   /
 ---           ---

总结四个反向传播公式

$\delta_j^l \equiv \frac{\partial C}{ \partial z_j^l} \tag{29}$

$\delta_j^L = \frac{\partial C}{\partial a_j^L}{\sigma}'(z_j^L) = \triangledown_a C \odot {\sigma}'(z^L) \tag{BP1}$
$\delta^l = ((\omega^{l+1})^T \delta^{l+1}) \odot {\sigma}'(z^l) \tag{BP2}$
$\frac{\partial C}{\partial b_j^l} = \delta_j^l \tag{BP3}$
$\frac{\partial C}{\partial \omega_{jk}^l} = a_k^{l-1}\delta_j^l \tag{BP4}$

1. 证明BP1

误差的定义(29) , 应用链式法制
$\sigma_j^L = \frac{\partial C}{\partial z_j^L} = \sum_k \frac{\partial C}{\partial a_k^L} \frac{\partial a_k^L}{\partial z_j^L} \tag{37}$
$\delta_j^L = \frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L} \tag{38}$
$a_j^L = \sigma(z_j^L)$ 所以第二项可以写成 ${\sigma}'(z_j^L)$ ，方程变成
$\delta_j^L = \frac{\partial C}{\partial a_j^L} \frac{\partial a_j^L}{\partial z_j^L} \tag{38}$

2. 证明 BP2

$\delta_j^l = \frac{\partial C}{\partial z_j^l} = \sum_k \frac{\partial C}{\partial z_k^{l+1}} \frac{z_k^{l+1}}{\partial z_j^l} = \sum_k\frac{\partial z_k^{z_k^{l+1}}}{\partial z_j^l} \delta_k^{l+1} \tag{42}$

$z_k^{l+1} = \sum_j \omega_{kj}^{l+1}a_j^l + b_k^{l+1} = \sum_j \omega_{kj}^{l+1}\sigma(z_j^l)+b_k^{l+1} \tag{43}$
做微分
$\frac{\partial z_k^{l+1}}{\partial z_j^l} = \omega_{kj}^{l+1}{\sigma}'(z_j^l) \tag{44}$
带入(42)
得
$\delta_j^l = \sigma_k \omega_{kj}^{l+1}\delta_k^{l+1}{\sigma}'(z_j^l) \tag{45}$

3. 证明BP3

由公式(29)
$\delta_j^l \equiv \frac{\partial C}{ \partial z_j^l} \tag{29}$
$z_j^l = \sum_k \omega_{kj}^l a_k^{l-1} + b_j^l \tag{46}$
函数为b, 两边(46)对 z 求微分得
$\frac{\partial b_j^l}{\partial z_j^l} = 1 \tag{47}$
(29)应用链式法则
$\delta_j^l = \frac{\partial C}{ \partial z_j^l} = \frac{\partial C}{\partial b_j^l}\frac{\partial b_j^l}{\partial z_j^l} = \frac{\partial C}{\partial b_j^l} \tag{48}$

4. 证明BP4

(46)，对 $\omega_k$ 求偏微分
，对于 $i \not = k$ 的 $\omega$ 其 $\partial z_j^l / \partial \omega_{ij}^l = 0$
$\frac{\partial z_{j}^l}{\partial \omega_{jk}^l} = a_k^{l-1}$
$\frac{\partial C}{\partial \omega_{jk}^l} = \frac{\partial C}{\partial z_j^l} \frac{\partial z_j^l}{\omega_{jk}^l} = \delta_j^l a_{k}^{l-1}$

2020-01-02 新年从反向传播4个公式推导开始
1 S型神经元修改权重和偏置的微小改动只会引起输出的微小变化 S型神经元有多个输入，x1,x2,... , xi...
神经网络之反向传播（BP）算法代码实现
反向传播算法实战本次的反向传播算法是基于上篇文章神经网络之反向传播算法（BP）详细公式推导实现的，如果对反向传播...
反向传播公式推导
参考自https://www.coursera.org/learn/neural-networks-deep-le...
深度学习 - 前向传播和反向传播
英文原文深度学习---反向传播的具体案例BP（反向传播算法）公式推导及例题解析前向传播 input ->输入到-...
卷积反向传播公式推导
我们先从二维的卷积运算来进行分析：如上图所示，我们求原图A处的delta误差，就先分析，它在前向传播中影响了下一...
神经网络之反向传播算法（BP）详细公式推导
反向传播算法详细推导反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种...
卷积层和pooling层如何参与梯度回传的
参考参考2 卷积层的反向梯度传播我们先从最简单的情况开始推导普通的反向传播其中,，我们想要更新权重，根据，...
反向传播推导
反向传播算法推导-卷积神经网络
在SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”中，我们推导了全连接神经网络的反向传播算法。其核心...
LSTM和GRU 及反向传播公式推导
参考引用链接：https://mp.weixin.qq.com/s/aV9Rj-CnJZRXRm0rDOK6gg?...