神经网络

作者: 蛐蛐囍 | 来源:发表于2018-08-06 14:41 被阅读26次

本文主要介绍BP算法:

给定训练集D = \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},x_i \in R^dy \in R^l,即输入由d个属性描述,输出l维实值向量。

BP网络及算法中的变量符号.jpg
  • 上图给出了一个拥有d个输入神经元、l个输出神经元、q个隐层神经元的多层前馈网络结构,其中输出层第j个神经元的阈值用\theta_j表示,隐层第h个神经元的阈值用\gamma_h表示。输出层第i个神经元与隐层第h个神经元之间的连接权为v_{ih},隐层第h和神经元与输出层第j个神经元之间的连接权为w_{hj}
  • 记隐层第h个神经元接收到的输入为\alpha=\sum_{i=1}^d v_{ih}x_i,输出层第j个神经元接收到的输入为\beta_j = \sum_{h = 1}^qw_{hj}b_h,其中b_h为第h个神经元的输出。假设隐层和输出层的神经元激活函数为sigmoid(x) = \frac{1}{1+e^{-x}}
  • 对训练例(x_k,y_k),假定神经网络的输出为\hat{y}_k = (\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k),即\hat{y}_j^k = f(\beta_j-\theta_j),则网络在(x_k,y_k)上的均方误差为
    E_k = \frac{1}{2}\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2
  • BP算法是一个迭代学习算法,在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计,任意参数v的更新估计式为
    v \leftarrow v + \Delta v
    BP算法基于梯度下降(gradient descent)策略,以目标的负梯度方向对参数进行调整,对E_k = 1/2\sum_{j = 1}^{l}(\hat{y}_j^k-y_j^k)^2,给定学习率\eta,有
    \Delta \omega_{hj} = -\eta\frac{\partial E_k}{\partial \omega_{hj}}
    注意到\omega_{hj}先影响到第j个输出层神经元的输入值为\beta_j,在影响到输出值\hat{y}_j^k,然后影响到E_k,有
    \frac{\partial E_k}{\partial \omega_{hj}} = \frac{\partial E_k}{\partial \hat{y}_j^k} \frac{\partial \hat{y}_j^k}{\partial \beta_j} \frac{\partial \beta_j}{\partial \omega_{hj}}
    根据\beta_j的定义,显然有
    \frac{\partial \beta_j}{\partial \omega_{hj}} = b_h
    Sigmoid函数有一个很好的性质:
    f(x)' = f(x)(1-f(x))
    那么有
    g_j = -\frac{\partial E_k}{\partial \hat{y}_j^k}\frac{\partial \hat{y}_j^k}{\beta_j} = -(\hat{y}^k_j - y_j^k)f'(\beta_j-\theta_j) = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)
    因此有:
    \Delta \omega_{hj} =\eta g_j g_h
  • 类似地,有
    输出层神经元的阈值:\Delta \theta_j = -\eta g_j
    输入层到隐层的连接权:\Delta v_{ih} = \eta e_h x_i
    隐层神经元的阈值:\Delta \gamma_h = -\eta e_h
    其中,
    e_h = -\frac{\partial E_k}{\partial b_h} \frac{b_h}{\alpha_h} = -\sum_{j = 1}^l \frac{\partial E_k}{\partial \beta_j}\frac{\beta_j}{\partial b_h}f'(\alpha_h - \gamma_h) = \sum_{j = 1}^l \omega_{hj}g_j f'(\alpha_h - \gamma_h) = b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j
  • 学习率\eta \in (0,1)控制着算法在每一轮迭代中的更新步长,若太长则容易震荡,太小则收敛速度又会过慢。

  • 输入
    训练集D= \{(x_k,y_k)\}_{k = 1}^m;
    学习率\eta.
  • 过程
    1:在(0,1)范围内随机初始化网络中所有连接权和阈值
    2:Repeat
    3:\quadfor all (x_k,y_k)\in D do
    4:\qquad 根据当前参数和\hat{y}_j^k = f(\beta_j-\theta_j)计算当前样本的输出\hat{y}_k;
    5:\qquad 根据式g_j = \hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)计算输出神经元的梯度项g_j
    6:\qquad 根据式e_h =b_h(1-b_h)\sum_{j = 1}^l \omega_{hj}g_j计算隐层神经元的梯度项e_h;
    7:\qquad 根据式\Delta \omega_{hj} =\eta g_j g_h\Delta \theta_j = -\eta g_j\Delta v_{ih} = \eta e_h x_i\Delta \gamma_h = -\eta e_h更新连接权\omega_{hj}v_{ih}与阈值\theta_j\gamma_h;
    8:\quad end for
    9:until 达到停止条件。
  • 输出
    连接权与阈值确定的多层前馈神经网络。

需注意的是,BP算法的目标是要最小化训练集D上的累积误差
E = 1/m \sum_{k = 1}^m E_k
标准的BP算法每次针对一个训练样例更新连接权和阈值。换言之,算法的更新规则是基于单个的E_k推到而得的。如果类似地推到基于累积误差最小化的更新规则,就得到了累积误差逆传播(accumulated error backpropagation)算法。
一般来说,标准BP算法每次更新只针对你单个样例,参数更新得非常频繁,而且对不同样例进行更新得效果可能出现抵消现象。因此,为了达到同样的累积误差极小点,标准BP算法往往需要进行更多次数的迭代。累积BP算法直接针对累积误差最小化,它在读取整个训练集D一遍后才对参数进行更新,其参数更新得频率低得多。

可以证明:多层前馈网络若包含足够多神经元的隐含层,则它可以以任意精度逼近任意复杂度的连续函数。

BP神经网络十分强大,因此可能出现过拟合现象。这时有两种策略可以缓解过拟合现象:

  • “”早停”策略:将数据集分成训练集和验证数据集两类,训练集用于计算梯度、更新连接权重和阈值;验证集用于估计误差,如果训练集误差降低而验证集误差上升,则停止训练。同时返回具有最小验证集误差的连接权重和阈值。
  • “正则化”策略:修改误差目标函数为:
    E = \frac{1}{N}\sum_{k = 1}^N E_k + \lambda\sum_i w_i^2
    其中w_i表示连接权重和阈值;\lambda >0表示对经验误差和网络复杂度的折中;即\lambda\sum_i w_i^2刻画了网络复杂度。

[ 神经网络的基本工作原理]

相关文章

网友评论

    本文标题:神经网络

    本文链接:https://www.haomeiwen.com/subject/tztgvftx.html