美文网首页
BP推导过程

BP推导过程

作者: 乐趣IT | 来源:发表于2018-10-24 13:21 被阅读0次

    Backpropagation 算法的推导与直观图解

    摘要

    本文是对 Andrew Ng 在 Coursera 上的机器学习课程中 Backpropagation Algorithm 一小节的延伸。文章分三个部分:第一部分给出一个简单的神经网络模型和 Backpropagation(以下简称 BP)算法的具体流程。第二部分以分别计算第一层和第二层中的第一个参数(parameters,在神经网络中也称之为 weights)的梯度为例来解释 BP 算法流程,并给出了具体的推导过程。第三个部分采用了更加直观的图例来解释 BP 算法的工作流程。

    注:1. 文中有大量公式,在 PC 或大屏移动设备下阅读排版更佳

      2. 为了方便讨论,省去了 Bias unit,并在第二部分的讨论中省去了 cost function 的正则化项

      3. 如果熟悉 Ng 课程中使用的字符标记,则推荐的阅读顺序为:第一、第三、第二部分

    第一部分 BP 算法的具体过程

    图 1.1 给出了一个简单的神经网络模型(省去了 Bias unit):

    图 1.1 一个简单的神经网络模型

    其中字符标记含义与 Ng 课程中的一致:

    x1,x2,x3x1,x2,x3 为输入值,也即 x(i)x(i)的三个特征;

    z(l)jzj(l) 为第 l层的第 j 个单元的输入值。

    a(l)jaj(l)为第层的第 个单元的输出值。其中 a = g(z)g 为 sigmoid 函数。

    Θ(l)ijΘij(l)第 l 层到 l+1 层的参数(权重)矩阵。

    BP 算法的具体流程(Matlab 伪代码)

    for i = m,

    a(1)=x(i);a(1)=x(i);

    使用前馈传播算法计算 a(2),a(3);a(2),a(3);

    δ(3)=a(3)−y(i);δ(3)=a(3)−y(i); 

    δ(2)=(Θ(2))T∗δ(3).∗g′(z(2));δ(2)=(Θ(2))T∗δ(3).∗g′(z(2)); % 第 2 个运算符 ' .* ' 为点乘,即按元素操作

    Δ(2)=Δ(2)+a(2)∗δ(3);Δ(2)=Δ(2)+a(2)∗δ(3);

    Δ(1)=Δ(1)+a(1)∗δ(2);Δ(1)=Δ(1)+a(1)∗δ(2);

    end;

    第二部分 BP 算法步骤的详解与推导过程

    BP 算法的目的在于为优化函数(比如梯度下降、其它的高级优化方法)提供梯度值,即使用 BP 算法计算代价函数(cost function)对每个参数的偏导值,其数学形式为:∂∂Θ(l)ijJ(Θ)∂∂Θij(l)J(Θ),并最终得到的值存放在矩阵 Δ(l)Δ(l) 中。

    若神经网络有 K 个输出(K classes),那么其 J(Θ) 为:

    接下来,以计算 Θ(1)11,Θ(2)11Θ11(1),Θ11(2)为例来给出 BP 算法的详细步骤。对于单个训练用例,其代价函数为:

    其中 hΘ(x)=a(l)=g(z(l))hΘ(x)=a(l)=g(z(l)), g 为 sigmoid 函数。

    计算Θ(2)11Θ11(2)的梯度:

    先取出式 2 中等号右边前两项,并将其记为 δ(3)1δ1(3):

    这里给出 δ(l)δ(l)的定义,即:

    对式 3 进行详细计算,即将 J(Θ)J(Θ)对 z(3)1z1(3)求偏导(计算过程中简记为 z):

    其中用到了 sigmoid 函数的一个很好的性质:

    这样便得到了Matlab中 BP 算法的第四行过程。

    第三部分 BP 算法的直观图解

    神经网络学习算法图概览

    给定一个函数 f(x),它的首要求导对象是什么?就是它的输入值,是自变量 x。那 f(g(x)) 呢?即把g(x) 当作一个整体作为它的输入值,它的自变量。那么 g(x) 这个整体就是它的首要求导对象。因此,一个函数的求导对象是它的输入值,是它的自变量。弄清楚这一点,才能在求多元函数偏导的链式法则中游刃有余。

    图 3.1 自下而上,每一个框是上面一个框的输入值,也即上面一个框中函数的自变量。这张图明确了神经网络中各数据之间的关系——谁是谁的输入值,图中表现得非常清楚。上段提到一个函数的求导对象是它的输入值,那么通过图 3.1 就能非常方便地使用链式法则,也能清楚地观察到 BP 算法的流程(后面一个小节会给出一个更具体的 BP 流程图)。

    对照文首给出的图 1.1 神经网络的模型图,应该很容易理解图 3.1 的含义,它大致地展现了神经网络的学习(训练)流程。前馈传播算法自下而上地向上计算,最终可以得到 a(3)a(3),进一步可以计算得到 J(Θ)J(Θ)。而 BP 算法自顶向下,层层求偏导,最终得到了每个参数的梯度值。下面一个小节将仔细介绍本文的主题,即 BP 算法的流程图解。

    图 3.1 神经网络学习算法概览

    BP 算法的直观图解

    图 3.2 给出了 BP 算法的计算流程,并附上了具体的计算步骤。BP 算法的流程在这张图中清晰可见:自顶向下(对应神经网络模型为自输出层向输入层)层层求偏导。因为神经网络的复杂性,人们总是深陷于求多元函数偏导的泥潭中无法自拔:到底该对哪个变量求导?图 3.2 理顺了神经网络中各数据点之间的关系,谁是谁的输入值,谁是谁的函数一清二楚,然后就可以畅快地使用链式法则了。

    图3.2 BP 算法流程

    所以 BP 算法即反向传播算法,就是自顶向下求代价函数 J(Θ)J(Θ)对各个参数 Θ(l)ijΘij(l) 偏导的过程,对应到神经网络模型中即自输出层向输入层层层求偏导。在图 3.2 中,当反向传播到 a(2)1a1(2)结点时,遇到分叉路口:选择对 Θ(2)11Θ11(2) 求偏导,即可得到第二层的参数梯度。而若选择对 a(2)1a1(2)这条路径继续向下求偏导,就可以继续向下(即输出层)传播,继续向下求偏导,最终可得到第一层的参数梯度,于是就实现了 BP 算法的目的。在选择分叉路口之前,使用 δ(l)δ(l)来保存到达分岔路口时的部分结果(本文的第二部分对 δ(l)δ(l) 做出了精确定义)。那么如果选择继续向下求偏导,则还可以使用这个部分结果继续向下逐层求偏导。从而避免了大量的重复计算,有效地提升了神经网络算法的学习速度。

    因此可以观察到 BP 算法两个突出特点:

    1) 自输出层向输入层(即反向传播),逐层求偏导,在这个过程中逐渐得到各个层的参数梯度。

    2) 在反向传播过程中,使用 δ(l)δ(l)保存了部分结果,从而避免了大量的重复运算。

    参考博客https://www.cnblogs.com/andywenzhi/p/7295262.html

    个人感想:对于bp的推导,先画出框图,使分析过程更加清晰。

    相关文章

      网友评论

          本文标题:BP推导过程

          本文链接:https://www.haomeiwen.com/subject/mvrazftx.html