Neural Networks and Deep Learnin

作者: 山雾幻华 | 来源:发表于2019-04-13 09:45 被阅读0次

神经网络与深度学习
Neural Networks and Deep learnin
Neural Networks and Deep learnin
Neural Networks and Deep learnin
Neural Networks and Deep Learnin
Neural Networks and Deep Learnin
Neural Networks and Deep Learnin
Neural Networks and Deep Learnin
Neural Networks and Deep Learnin
Neural Networks and Deep Learnin

读书截止时间：2019.04.10
读书次数：1次

2 CHAPTER 2 How the backpropagation algorithm works

2 CHAPTER 2 How the backpropagation algorithm works

将解释一种计算这种梯度的快速算法，一种称为反向传播的算法。

2.1 热身:神经网络中使用矩阵快速计算输出的方法

定义 $w_{j k}^{l}$ 表示 $(l-1)^{\mathrm{th}}$ 层的 $k^{\mathrm{th}}$ 个神经元到 $l^{\mathrm{th}}$ 层的 $j^{\mathrm{th}}$ 个神经元的权重。例如

image
下标和的顺序别扭解释

偏置定义 $b_{j}^{l}$ 表示在 $l^{\mathrm{th}}$ 层的第 $j^{\text { th }}$ 的偏置

激活值定义 $a_{j}^{l}$ 表示在 $l^{\mathrm{th}}$ 层的第 $j^{\text { th }}$ 的激活值

image
层的第个神经元的激活值就和层的激活值通过联系起来

其中求和是在 $(l-1)^{\text { th }}$ 层的所有 $k$ 个神经元上进⾏的。为了用矩阵的形式重写这个表达式，我们对每⼀层 $l$ 都定义⼀个权重矩阵 $w^{l}$ 。权重矩阵 $w^{l}$ 的元素正是连接到 $l^{\mathrm{th}}$ 层神经元的权重，更确切地说，在第 $j^{\mathrm{th}}$ ⾏第 $k^{\mathrm{th}}$ 列的元素是 $w_{j k}^{l}$ 。类似的，对每⼀层 $l$ ，定义⼀个偏置向量， $b_{j}^{l}$ 。你已经猜到这些如何⼯作了—— 偏置向量的每个元素其实就是前面给出的 $b_{j}^{l}$ ，每个元素对应于 $l^{\text { th }}$ 层的每个神经元。最后，我们定义激活向量 $a^{l}$ ，其元素是那些激活值 $a_{j}^{l}$

写为向量形式为 $a^{l}=\sigma\left(w^{l} a^{l-1}+b^{l}\right) \tag{2.1.2}$

在计算上述的式子时，我们间接的计算了中间量 $z^{l} \equiv w^{l} a^{l-1}+b^{l}$ ，称 $z^{l}$ 为 $l$ 层神经元的带权输入，可简写为 $a^{l}=\sigma\left(z^{l}\right)$

$z^{l}$ 的每个元素是 $z_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}$ ，其实 $z_{j}^{l}$ 就是第 $l$ 层第 $j$ 个神经元的激活函数的带权输入。

2.2 代价函数的两个假设 ?

反向传播的目标是计算代价函数 $C$ 分别关于 $w$ 和 $b$ 的偏导数 $\partial C / \partial w$ 和 $\partial C / \partial b$ 。

二次代价函数有下列形式： $C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2} \tag{2.2.1}$ 其中 $n$ 是训练集的总数； $y=y(x)$ 是对应的目标输出； $L$ 表示网络层数； $a^{L}=a^{L}(x)$ 表示当输入是 $x$ 时的网络输出的激活值向量

主要假设：

代价函数可以被写成⼀个在每个训练样本 $x$ 上的代价函数 $C_{x}$ 的均值 $C=\frac{1}{n} \sum_{x} C_{x}$ 。其中对每个独立的训练样本其代价是 $C_{x}=\frac{1}{2}\left\|y-a^{L}\right\|^{2}$ 。
代价可以写成神经网络输出的函数 image ；例如，二次代价函数满足这个要求，因为对于一个单独的训练样本 $x$ 其二次代价函数可以写作 $C=\frac{1}{2}\left\|y-a^{L}\right\|^{2}=\frac{1}{2} \sum_{j}\left(y_{j}-a_{j}^{L}\right)^{2} \tag{2.2.2}$ 这是输出的激活值的函数。

2.3 Hadamard（Schur）乘积, $s \odot t$

假设 $s$ 和 $t$ 是两个相同维度的向量。 $s \odot t$ 表示按元素的乘积，即 $(s \odot t)_{j}=s_{j} t_{j}$ ，例如 $\left[ \begin{array}{l}{1} \\ {2}\end{array}\right] \odot \left[ \begin{array}{l}{3} \\ {4}\end{array}\right]=\left[ \begin{array}{l}{1 * 3} \\ {2 * 4}\end{array}\right]=\left[ \begin{array}{l}{3} \\ {8}\end{array}\right] \tag{2.2.3}$

2.4 反向传播背后的四个基本方程

反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义其实就是计算偏
导数 $\partial C / \partial w_{j k}^{l}$ 和 $\partial C / \partial b_{j}^{l}$ 。引入一个中间量 $\delta_{j}^{l}$ ：在 $l^{\mathrm{th}}$ 层的第 $j^{\text { th }}$ 个神经元上的误差。

定义 $l$ 层的第 $j^{t h}$ 个神经元上的误差为： $\delta_{j}^{l} \equiv \frac{\partial C}{\partial z_{j}^{l}}\tag{2.3.1}$
使⽤ $\delta^{l}$ 表⽰关联于 $l$ 层的误差向量。反向传播会提供给我们⼀种
计算每层的 $\delta^{l}$ 的⽅法，然后将这些误差和最终我们需要的量 $\partial C / \partial w_{j k}^{l}$ 和 $\partial C / \partial b_{j}^{l}$ 联系起来。

解决方案:反向传播基于四个基本方程。这些方程给我们一种计算误差 $\delta^{l}$ 和代价函数梯度的方法

输出层误差的方程， $\delta^{L}$ $\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_{j}^{L}\right)\tag{2.3.2 BP1}$
$\partial C / \partial a_{j}^{L}$ 表示代价随着 $j^{\mathrm{th}}$ 输出激活值的变化而变化的速度。假如 $C$ 不太依赖一个特定的输出神经元 $j$ ,那么 $\delta_{j}^{L}$ 就会很小。 $\sigma^{\prime}\left(z_{j}^{L}\right)$ 表示 $z_{j}^{L}$ 处激活函数 $\sigma$ 变化的速度

例如使用二次函数，那么 $C=\frac{1}{2} \sum_{j}\left(y_{j}-a_{j}\right)^{2}$ ，所以 $\partial C / \partial a_{j}^{L}=\left(a_{j}-y_{j}\right)$ （容易计算）

使用矩阵改写为 $\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right) \tag{2.3.3}$ 其中 $\nabla_{a} C$ 被定义成一个向量，其元素为 $\partial C / \partial a_{j}^{L}$

例如二次函数 $\nabla_{a} C=\left(a^{L}-y\right)$ ，所以 $\delta^{L}=\left(a^{L}-y\right) \odot \sigma^{\prime}\left(z^{L}\right)$

使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^{l}$ ： $\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)\tag{2.3.4 BP2}$ 其中 $\left(w^{l+1}\right)^{T}$ 表示 $(l+1)^{\mathrm{th}}$ 层权重矩阵 $w^{l+1}$ 的转置。当我们应⽤转置的权重矩阵 $\left(w^{l+1}\right)^{T}$ ，我们可以凭直觉地把它看作是在沿着⽹络反向移动误差，给了我们度量在 $l^{\mathrm{th}}$ 层输出的误差⽅法。然后，我们进⾏Hadamard 乘积运算 $\odot \sigma^{\prime}\left(z^{l}\right)$ 。这会让误差通过 $l$ 层的激活函数反向传递回来并给出在第 $l$ 层的带权输⼊的误差 $\delta$ 。

通过BP1和BP2我们可以计算任何层的误差 $\delta^{l}$ ，首先通过BP1计算 $\delta^{L}$ ，然后应用BP2计算 $\delta^{L-1}$ 等。

代价函数关于网络中任意偏置的改变率 $\frac{\partial C}{\partial b_{j}^{l}}=\delta_{j}^{l} \tag{2.3.5 BP3}$ 其实误差 $\delta_{j}^{l}$ 和偏导数值 $\partial C / \partial b_{j}^{l}$ 完全一致，重写为 $\frac{\partial C}{\partial b}=\delta \tag{2.3.6}$ 其中 $\delta$ 和偏置都是针对同一个神经元

代价函数关于任何一个权重的改变率 $\frac{\partial C}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l} \tag{2.3.7 BP4}$ 简写为 $\frac{\partial C}{\partial w}=a_{\mathrm{in}} \delta_{\mathrm{out}} \tag{2.3.8}$ 其中 $a_{\mathrm{in}}$ 是输入给权重 $w$ 的神经元， $\delta_{\mathrm{out}}$ 是输出自权重 $w$ 的神经元的误差

image
⼀个好的结果就是当激活值很⼩,，梯度也会趋向很⼩。这样，我们就说权重缓慢学习，表⽰在梯度下降的时候，这个权重不会改变太多。换言之，(BP4)的⼀个结果就是来⾃低激活值神经元的权重学习会非常缓慢。

从其他方面理解，从输出层开始，先看BP1的 $\sigma^{\prime}\left(z_{k}^{l}\right)$ 项，当 $\sigma^{\prime}\left(z_{k}^{l}\right)$ 接近0或者1时 $\sigma$ 函数变得非常平。这时 $\sigma^{\prime}\left(z_{j}^{L}\right) \approx 0$ 。所以如果输出神经元处于或者低激活值 $(\approx 0)$ 或者⾼激活值 $(\approx 1)$ 时，最终层的权重学习缓慢。这样的情形，我们常常称输出神经元已经饱和，并且权重学习也会终止（或者学习非常缓慢）。类似的对于输出神经元的偏置也是成立的。

如果输⼊神经元激活值很低，或者输出神经元已经饱和了（过⾼或者过低的激活值），权重会学习缓慢。

总结
$\begin{array}{ll}{\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right)} & {(\mathrm{BP} 1)} \\ {\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)} & {(\mathrm{BP} 2)} \\ {\frac{\partial C}{\partial b_{j}^{L}}=\delta_{j}^{l}} & {(\mathrm{BP} 3)} \\ {\frac{\partial C}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l}} & {(\mathrm{BP} 4)}\end{array}$

2.4.1 问题

另一种反向传播方程的表示方式：基于传统的矩阵乘法

证明BP1可以写成 $\delta^{L}=\Sigma^{\prime}\left(z^{L}\right) \nabla_{a} C$
其中 $\Sigma^{\prime}\left(z^{L}\right)$ 是一个方阵，其对角线的元素是 $\sigma^{\prime}\left(z_{j}^{L}\right)$ ，其他的元素均是0.

BP2可以写成 $\delta^{l}=\Sigma^{\prime}\left(z^{l}\right)\left(w^{l+1}\right)^{T} \delta^{l+1}$

结合上述的两个证明 $\delta^{l}=\Sigma^{\prime}\left(z^{l}\right)\left(w^{l+1}\right)^{T} \ldots \Sigma^{\prime}\left(z^{L-1}\right)\left(w^{L}\right)^{T} \Sigma^{\prime}\left(z^{L}\right) \nabla_{a} C$

2.5 四个基本方程的证明

误差 $\delta^{L}$ 定义 $\delta_{j}^{L}=\frac{\partial C}{\partial z_{j}^{L}}$
应用链式法则，可以就输出激活值的偏导数的形式重新表示 $\delta_{j}^{L}=\sum_{k} \frac{\partial C}{\partial a_{k}^{L}} \frac{\partial a_{k}^{L}}{\partial z_{j}^{L}}$ 这里的求和是在输出层的所有神经元k上运行的，当然 $k^{\mathrm{th}}$ 输出激活值 $a_{k}^{L}$ 只依赖于当 $k = j$ 时第 $j^{\mathrm{th}}$ 个神经元的输入权重 $z_{j}^{L}$ 。所以当 $k \neq j$ 时 $\partial a_{k}^{L} / \partial z_{j}^{L}$ 就消失了，所以变为 $\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \frac{\partial a_{j}^{L}}{\partial z_{j}^{L}}$

回想一下 $a_{j}^{L}=\sigma\left(z_{j}^{L}\right)$ ，右边的第二项可以写为 $\sigma^{\prime}\left(z_{j}^{L}\right)$ ，方程变为 $\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_{j}^{L}\right)$ 这正是BP1的分量形式

要以 $\delta_{j}^{l}=\partial C / \partial z_{j}^{l}$ 重写 $\delta_{k}^{l+1}=\partial C / \partial z_{k}^{l+1}$ 可以应用链式法则 $\begin{aligned} \delta_{j}^{l} &=\frac{\partial C}{\partial z_{j}^{l}} \\ &=\sum_{k} \frac{\partial C}{\partial z_{k}^{l+1}} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}} \\ &=\sum_{k} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}} \delta_{k}^{l+1} \end{aligned}$ 这里最后一行我们交换了右边的两项，并用 $\delta_{k}^{l+1}$ 的定义带入。 $z_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} a_{j}^{l}+b_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} \sigma\left(z_{j}^{l}\right)+b_{k}^{l+1}$
作微分 $\frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}}=w_{k j}^{l+1} \sigma^{\prime}\left(z_{j}^{l}\right)$
带入得 $\delta_{j}^{l}=\sum_{k} w_{k j}^{l+1} \delta_{k}^{l+1} \sigma^{\prime}\left(z_{j}^{l}\right)$
这是BP2得分量形式

2.5.1 练习

证明方程BP3，BP4

2.6 反向传播算法

输入 $x$ ：为输入层设置对应的激活值 $a^{1}$
正向传播： $l=2,3, \dots, L$ 计算相应的 $z^{l}=w^{l} a^{l-1}+b^{l}$ 和 $a^{l}=\sigma\left(z^{l}\right)$
输出层误差 $\delta^{L}$ ：计算向量 $\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right)$
反向传播误差：对于每个 $l=L-1, L-2, \ldots, 2$ ，计算 $\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)$
输出：代价函数的梯度由 $\frac{\partial C}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}=\delta_{j}^{l}$

特别的，给定一个大小为 $m$ 的小批量数据，下面的算法在这个小批量数据的基础上应用一步梯度下降学习算法

输入训练样本的集合
对每个训练样本：设置对应的输入激活，并执行以下步骤
- 前向传播：对每个 $l=2,3, \ldots, L$ 计算 $z^{x, l}=w^{l} a^{x, l-1}+b^{l}$ and $a^{x, l}=\sigma\left(z^{x, l}\right)$
- 输出误差 $\delta^{x, L}$ ：计算向量 $\delta^{x, L}=\nabla_{a} C_{x} \odot \sigma^{\prime}\left(z^{x, L}\right)$
- 反向传播误差：对每个 $l=L-1, L-2, \ldots, 2$ 计算 $\delta^{x, l}=\left(\left(w^{l+1}\right)^{T} \delta^{x, l+1}\right) \odot \sigma^{\prime}\left(z^{x, l}\right)$
梯度下降：对每个 $l=L, L-1, \dots, 2$ 根据 $w^{l} \rightarrow w^{l}-\frac{\eta}{m} \sum_{x} \delta^{x, l}\left(a^{x, l-1}\right)^{T}$ 和 $b^{l} \rightarrow b^{l}-\frac{\eta}{m} \sum_{x} \delta^{x, l}$ 更新权重和偏置

2.6.1 练习

使用单个修正的神经元的反向传播假设我们改变⼀个前馈⽹络中的单个神经元，使得那个神经元的输出是 $f\left(\sum_{j} w_{j} x_{j}+b\right)$ ，其中 $f$ 是和S型函数不同的某⼀函数。我们如何调整反向传播算法？

线性神经元上的反向传播假设我们将非线性神经元的 $\sigma$ 函数替换为 $\sigma(z)=z$ 。重写反向传播算法。

2.7 代码

class Network(object):
    def update_mini_batch(self, mini_batch, eta):
        """Update the network's weights and biases by applying
        gradient descent using backpropagation to a single mini batch.
        The "mini_batch" is a list of tuples "(x, y)", and "eta"
        is the learning rate."""
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
        self.weights = [w-(eta/len(mini_batch))*nw 
                        for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(eta/len(mini_batch))*nb 
                       for b, nb in zip(self.biases, nabla_b)]

2.7.1 问题

在⼀个⼩批量数据上的反向传播的全矩阵⽅法
我们对于随机梯度下降的实现是对⼀个⼩批量数据中的训练样本进⾏遍历。所以也可以更改反向传播算法使得它同时对⼀个⼩批量数据中的所有样本进⾏梯度计算。这个想法其实就是我们可以⽤⼀个矩阵 $X=\left[x_{1} x_{2} \ldots x_{m}\right]$ ，其中每列就是在⼩批量数据中的向量，⽽不是单个的输⼊向量， $x$ 。我们通过乘权重矩阵，加上对应的偏置进⾏前向传播，在所有地方应用S 型函数。然后按照类似的过程进行反向传播。请显式写出这种⽅法下的伪代码。更改network.py 来实现这个⽅案。这样做的好处其实利⽤到了现代的线性代数库。所以，这会⽐在⼩批量数据上进⾏遍历要运⾏得更快（在我的笔记本电脑上，在MNIST 分类问题上，我相较于上⼀章的实现获得了2 倍的速度提升）。在实际应用中，所有靠谱的反向传播的库都是用了类似的基于矩阵或者其变化形式来实现的。

2.8 在什么层面上反向传播是快速的算法

当把代价函数当作权重的函数时 $\frac{\partial C}{\partial w_{j}} \approx \frac{C\left(w+\epsilon e_{j}\right)-C(w)}{\epsilon}$ 可以可以通过计算两个接近相同的 $w_{j}$ 值的代价 $C$ 来估计 $\partial C / \partial w_{j}$ ，同样对于偏置来说是一样的

但是计算量及其大，所以当反向传播出现时边使用反向传播来训练

2.8 反向传播：全局观

假设我们对一些网络中的 $w_{j k}^{l}$ 做一点小小的变动 $\Delta w_{j k}^{l}$

image
这个改变会导致再输出激活值上的相应改变

image
然后，会产生对下一层所有激活值的改变

image
接着这些改变将会影响到一个个下一层，到达输出层，最终影响代价函数

image
所以代价函数改变和就按照下面的公式关联

$\Delta w_{j k}^{l}$ 导致了再 $l^{t h}$ 层 $j^{t h}$ 神经元的激活值的变化 $\Delta a_{j}^{l}$ ， $\Delta a_{j}^{l} \approx \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}} \Delta w_{j k}^{l}$
$\Delta a_{j}^{l}$ 的变化将会导致下一层 $(l+1)^{\text { th }}$ 所有激活值的变化。 $\Delta a_{q}^{l+1} \approx \frac{\partial a_{q}^{l+1}}{\partial a_{j}^{l}} \Delta a_{j}^{l}$
代入方程我们得到： $\Delta a_{q}^{l+1} \approx \frac{\partial a_{q}^{l+1}}{\partial a_{j}^{l}} \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}} \Delta w_{j k}^{l}$
所以 $\Delta C \approx \frac{\partial C}{\partial a_{m}^{L}} \frac{\partial a_{m}^{L}}{\partial a_{n}^{L-1}} \frac{\partial a_{n}^{L-1}}{\partial a_{p}^{L-2}} \ldots \frac{\partial a_{q}^{l+1}}{\partial a_{j}^{l}} \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}} \Delta w_{j k}^{l}$

全部改变 $\Delta C \approx \sum_{m n p . \ldots q} \frac{\partial C}{\partial a_{m}^{L}} \frac{\partial a_{m}^{L}}{\partial a_{n}^{L-1}} \frac{\partial a_{n}^{L-1}}{\partial a_{p}^{L-2}} \ldots \frac{\partial a_{q}^{l+1} \partial a_{j}^{l}}{\partial w_{j k}^{l}} \Delta w_{j k}^{l}$
所以 $\frac{\partial C}{\partial w_{j k}^{l}}=\sum_{m n p . . q} \frac{\partial C}{\partial a_{m}^{L}} \frac{\partial a_{m}^{L}}{\partial a_{n}^{L-1}} \frac{\partial a_{n}^{L-1}}{\partial a_{p}^{L-2}} \ldots \frac{\partial a_{q}^{l+1}}{\partial a_{j}^{l}} \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}}$ 过程解释

image

神经网络与深度学习
在读完Michael A. Nielsen编写的《Neural Networks and Deep Learnin...
Neural Networks and Deep learnin
课程介绍能学到什么学完后能获得什么
Neural Networks and Deep learnin
背景：改变了传统的网络商业，网络搜索和广告专题总结学习深度学习的工具
Neural Networks and Deep learnin
Be able to explain the major trends driving the rise of d...
Neural Networks and Deep Learnin
Hello and welcome.As you probably know,deep learning has ...
Neural Networks and Deep Learnin
The term, Deep Learning, refers to training Neural Networ...
Neural Networks and Deep Learnin
There's been a lot of hype about neural networks.And perh...
Neural Networks and Deep Learnin
if the basic technical idea is behinddeep learning behind...
Neural Networks and Deep Learnin
As part of this course by deeplearning.ai,hope to not jus...
Neural Networks and Deep Learnin
读书截止时间：2019.04.10读书次数：1次 2 CHAPTER 2 How the backpropagat...