一. 算法描述
BP网络和感知机一样,是前馈神经网络的代表,不同在于BP网络是一种多层且复杂的神经网络。而BP算法是一种用于前馈多层网络的反向传播学习算法。怎么理解呢?其基本思想是,学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,样本从输入层传入,经隐含层逐层处理后,传向输出层。若输出层的实际输出与期望输出不符,则转向误差的反向传播阶段。误差的反向传播是将输出误差以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程,是周而复始地进行。权值不断调整过程,也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可以接受的程度,或进行到预先设定的学习次数为止。
正向传播算法,我们在前面已经介绍过,很简单,这里不再赘述了。所以本章的重点就是这个BP算法,也就是反向传播算法。
二. 如何理解BP算法
BP算法的核心思想是将误差从输出层反向传播回输入层,计算出每层的误差,然后根据误差来调整每层的权值。这里有人可能会问,直接在输出层计算代价,然后梯度下降不行吗?答案肯定是不行的,纵然梯度下降神通广大,但却不是万能的。梯度下降可以应对带有明确求导函数的情况,或者说可以应对那些可以求出误差的情况,比如逻辑回归(Logistic Regression),我们可以把它看做没有隐层的网络;但对于多隐层的神经网络,输出层可以直接求出误差来更新参数,但其中隐层的误差是不存在的,因此不能对它直接应用梯度下降,而是先将误差反向传播至隐层,然后再应用梯度下降,其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。
三. 详解BP算法
介绍BP算法之前,我们先规定几个符号
1. 链式求导
首先我们先进行一下向前传播:
我们在输入层输入数据 x1 x2,则可以得到隐藏层的输入:
现在要将误差反向传播:
之前使用梯度下降法的时候,我们通过偏导数来获取梯度方向,进而更新参数,这里我们依然使用这个方法。想要更新权重,那么我们就可以对权重求偏导数。不同的是,由于现在是多层网络,我们要使用链式求导法则,将误差传递给隐藏层,这样才能逐层更新权重。举例来说,现在我们要更新cf之间的权重:
同理我们也可以求出这个表达式的结果。至此,我们可以使用链式求导法则来求出任何一个权值的梯度方向,进而更新权重。
2. 简化链式求导的计算
我们观察上面链式求导的过程,不难发现神经网络的层数越多,求导计算量越大,但是他们之间是有 重复计算的部分。我们观察下图的红色部分,是一样的,有木有,有木有?
为了简化计算,我们引入一个新名词,叫做误差,好吧这不是新名词,但是我们要给他一个 新的定义。一个神经元的误差,就是代价函数对该神经元输入的偏导数。其实就是我们红框框中的东西。 那用向量表示我们输出层的误差就是: 经典书籍《神经网络与深度学习》中的第一个公式浮出水面了:
那误差怎么传播呢?隐藏层的误差怎么求呢?根据误差的定义,我们来求隐藏层的误差,因为代价公式到达C点其实有2条路径,所以我们要对w与g分别求偏导数: 整理一下,求出结果: 我们把其他2个点的误差也求出来: 我们发现,如果把它向量表示出来,就得到了我们的第二个公式:
然后是公式三和四:
总结一下我们的公式:
四. BP神经网络学习的过程
前面我们介绍了BP算法,归根结底,BP算法只是在神经网络中求偏导数的快速算法。下面我们来总结一下BP神经网络的学习过程:
- 首先要选取一个合适的神经网络结构。
- [-1,1]间随机初始化各个权重
- 构造代价函数(注意:之前我们的代价公式是建立在只有一个样本的前提下的)
- 正向传播与反向传播求取梯度:
- 利用梯度下降法更新所有权重,然后重复第4,5步,直到代价函数收敛。
五. 关于网络结构选取的若干建议
- input层神经元个数由输入特征个数决定。
- output层神经元个数由输出的类别个数决定,分几类就有几个神经元。
- 推荐使用一个隐藏层,若使用多个隐藏层,建议每个隐藏层神经元个数相同。
(理论上隐藏层神经元个数越多越好,神经元越多计算量越大)
(参考资料)
链接:https://www.jianshu.com/p/964345dddb70
网友评论