(九)神经网络之BP网络

作者: 躺在稻田里的小白菜 | 来源:发表于2018-08-02 19:24 被阅读0次

一. 算法描述

BP网络和感知机一样，是前馈神经网络的代表，不同在于BP网络是一种多层且复杂的神经网络。而BP算法是一种用于前馈多层网络的反向传播学习算法。怎么理解呢？其基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，样本从输入层传入，经隐含层逐层处理后，传向输出层。若输出层的实际输出与期望输出不符，则转向误差的反向传播阶段。误差的反向传播是将输出误差以某种形式通过隐层向输入层逐层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程，是周而复始地进行。权值不断调整过程，也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可以接受的程度，或进行到预先设定的学习次数为止。
正向传播算法，我们在前面已经介绍过，很简单，这里不再赘述了。所以本章的重点就是这个BP算法，也就是反向传播算法。

二. 如何理解BP算法

BP算法的核心思想是将误差从输出层反向传播回输入层，计算出每层的误差，然后根据误差来调整每层的权值。这里有人可能会问，直接在输出层计算代价，然后梯度下降不行吗？答案肯定是不行的，纵然梯度下降神通广大，但却不是万能的。梯度下降可以应对带有明确求导函数的情况，或者说可以应对那些可以求出误差的情况，比如逻辑回归（Logistic Regression），我们可以把它看做没有隐层的网络；但对于多隐层的神经网络，输出层可以直接求出误差来更新参数，但其中隐层的误差是不存在的，因此不能对它直接应用梯度下降，而是先将误差反向传播至隐层，然后再应用梯度下降，其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助，因此反向传播算法可以说是梯度下降在链式法则中的应用。

三. 详解BP算法

介绍BP算法之前，我们先规定几个符号

1. 链式求导

首先我们先进行一下向前传播：
我们在输入层输入数据 x1 x2，则可以得到隐藏层的输入：

隐藏层的输入通过激活函数得到输出：

同理我们也可以得到输出层的输出：

得到输出之后，我们可以计算误差，这里使用平方法来计算误差（假设只有一个样本数据）：

也就是：

现在要将误差反向传播：
之前使用梯度下降法的时候，我们通过偏导数来获取梯度方向，进而更新参数，这里我们依然使用这个方法。想要更新权重，那么我们就可以对权重求偏导数。不同的是，由于现在是多层网络，我们要使用链式求导法则，将误差传递给隐藏层，这样才能逐层更新权重。举例来说，现在我们要更新cf之间的权重：