前馈神经网络的正向传播和反向传播算法的推导

作者: 壮志_凌云 | 来源:发表于2019-04-19 14:09 被阅读4次

单个神经元

首先对本文中使用的符号进行解释，本文中出现的向量都默认为列向量。 $m$ 表示样本数量， $n$ 表示单个样本包含的输入特征数量， $x^{(i)}_j$ 表示第 $i$ 个样本的第 $j$ 个特征值。 $l$ 表示从1开始计数的神经网络层号， $L$ 表示最大层号， $K$ 表示第 $L$ 层包含的神经元数量（即输出特征数量）。 $n_l$ 表示第 $l$ 层包含的神经元数量。 $z^{(l)}_j$ 和 $a^{(l)}_j$ 分别表示 $l$ 层第 $j$ 个神经元的状态值和激活值， $z^{(l)}$ 表示第 $l$ 层中所有神经元的状态值组成的向量， $a^{(l)}$ 表示第 $l$ 层中所有神经元的激活值组成的向量。 $w^{(l)}_{j,i}(l \geq 2)$ 表示第 $l-1$ 层的第 $i$ 个神经元与第 $l$ 层的第 $j$ 个神经元连接的权重， $b^{(l)}_j$ 表示第 $l$ 层的第 $j$ 个神经元的偏置。 $w ^{(l)}_j$ 表示第 $l$ 层的第 $j$ 个神经元与第 $l-1$ 层中神经元连接的权重向量， $\theta^{(l)}_j = ( \begin{bmatrix} b^{(l)}_j ,(w^{(l)}_j)^T \end{bmatrix} )^T$ 表示该神经元的线性变换向量。 $W^{(l)}$ 表示第 $l$ 层中所有神经元的权重向量组成的权重矩阵，每个神经元的权重向量是它的一个列向量； $\Theta^{(l)}$ 表示第 $l$ 层中所有神经元的线性变换向量组成的矩阵，每个神经元的线性变换向量是它的一个列向量。

上面图片所示的是单个神经元，其中 $z^{(l)}_j$ 是神经元的状态值， $a^{(l)}_j$ 是神经元的激活值， $\theta ^{(l)}_j$ 是从上一层神经网络到该神经元的线性变换向量（ $\theta ^{(l)}_j$ 为偏置 $b^{(l)}_j$ 和权重向量 $w^{(l)}_j$ 组成的向量）。 $g$ 为激活函数，本文中采用 $sigmoid$ 函数作为激活函数，即 $g = (1 + e^{-z})^{-1}$ ，那么 $a^{(l)}_j = g(z^{(l)}_j)$ 。

一、正向传播算法

神经网络的正向传播算法，从输入层到隐藏层最后到输出层，依次计算每个神经元的状态值和激活值。在输入层中， $a^{(1)} = x^{(i)}$ ，那么第 $l$ 层的第 $j$ 个神经元的状态值和激活值有下面的递推公式：

$z^{(l)}_j = ( \theta^{(l)}_j )^T * \begin{bmatrix} 1 \\ a^{(l-1)} \end{bmatrix}, a^{(l)}_j = g(z^{(l)}_j) , l \geq 2$

第 $l$ 层中所有神经元的状态值和激活值有下面的递推公式：

$z^{(l)} = ( \Theta^{(l)} )^T * \begin{bmatrix} 1 \\ a^{(l-1)} \end{bmatrix} , a^{(l)} = g(z^{(l)}) , l \geq 2$

这样，根据输入层的激活值，使用递推公式就可以从输入层向后依次计算出每层神经网络的状态值和激活值。这就是正向传播算法。

二、反向传播算法

神经网络的反向传播算法，用于计算损失函数关于每个权重 $w^{(l)}_{j,i}$ 和偏置 $b^{(l)}_j$ 的偏导数，与具体损失函数的形式无关。另外，假设本文中涉及的函数都是可微的，那么就可以使用链式法则来计算偏导数。

设 $J$ 为损失函数，那么它是一个高度复合的函数，可以看作是关于 $w^{(l)}_{j,i}$ 和 $b^{(l)}_j$ 的函数，也可以看作是关于 $z^{(l)}_j$ 的函数。设 $\delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i} , l \geq 2$ 是第 $l$ 层的第 $i$ 个神经元的误差率，下面我们来计算 $\delta^{(l)}_i$ ：

第 $l$ 层的第 $i$ 个神经元与第 $l+1$ 层的所有神经元相连，损失函数可以看作是关于 $z^{(l+1)}_j$ 的函数， $z^{(l+1)}_j$ 又是 $z^{(l)}_i$ 的函数，即损失函数作为复合函数有 $n_{j+1}$ 条路径可以到达 $z^{(l)}_i$ ，那么：

$\delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i} = \sum_{j=1}^{n_{l+1}} (\frac{\partial J}{\partial z^{(l+1)}_j} * \frac{\partial z^{(l+1)}_j}{\partial a^{(l)}_i} * \frac{\partial a^{(l)}_i}{\partial z^{(l)}_i})$ $= ( \sum_{j=1}^{n_{l+1}} \delta^{(l+1)}_j * w^{(l+1)}_{j,i})* g^{(1)}(z^{(l)}_i)$

$\frac{\partial J}{\partial w^{(l)}_{j,i}} = \frac{\partial J}{\partial z^{(l)}_j} * a^{(l-1)}_i = \delta^{(l)}_j * a^{(l-1)}_i$

$\frac{\partial J}{\partial b^{(l)}_j} = \frac{\partial J}{\partial z^{(l)}_j} * 1 = \delta^{(l)}_j$

那么，第 $l$ 层中所有神经元的误差率组成的向量，和，第 $l$ 层的线性变换矩阵的偏导数，有下面的递推公式：

$\delta^{(l)} = W^{(l+1)} * \delta^{(l+1)} \odot g^{(1)}(z^{(l)}) , l \geq 2$

$\frac{\partial J}{\partial W^{(l)}} = a^{(l-1)} * (\delta^{(l)})^T$

$\frac{\partial J}{\partial \Theta^{(l)}} = \begin{bmatrix} 1 \\ a^{(l-1)} \end{bmatrix} * ( \delta^{(l)} )^T$

这样， $\delta^{(L)}$ 可以由损失函数的形式直接求出，使用递推公式就可以从输出层向前依次计算出每层神经网络的误差率和线性变换矩阵的偏导数。这就是反向传播算法。

如果使用 $sigmoid$ 激活函数和下面形式的损失函数：

$J(\Theta) = -m^{-1} * \sum_{i}^m \sum_{k}^K ( y^{(i)}_k * ln(a^{(i)}_k) + (1 - y^{(i)}_k) * ln(1 - a^{(i)}_k ) ) + \frac{\lambda}{2m} \sum_{l=2}^L \sum_{j=1}^{n_l} \sum_{i=1}^{n_{l-1}} ( \theta^{(l)}_{j,i} )^2$

那么可以计算出只有单个样本时第 $L$ 层的误差率为 $\delta^{(L)} = a^{(L)} - y$ ，分别计算出单个样本时参数的偏导数，然后将所有样本的偏导数相加，即可计算出损失函数关于所有样本时参数的偏导数。

前馈神经网络的正向传播和反向传播算法的推导

一、正向传播算法

二、反向传播算法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

机器学习

经验App：聚合职场优选内容

机器学习与数据挖掘

深度学习·神经网络·计算机视觉