美文网首页
梯度消失和梯度爆炸

梯度消失和梯度爆炸

作者: 放开那个BUG | 来源:发表于2018-08-14 09:56 被阅读17次

1.原因

  神经网络为什么会出现梯度消失和梯度爆炸的问题,根源是反向传播。一般整个深度神经网络可以视为一个复合的非线性多元函数
F(x) = f_n(..f_3(f_2(f_1(x) * \Theta_1 + b_1) * \Theta_2 + b_2) * \Theta_3 + b_3...)
  那么在这样一个公式中,我们都知道,计算梯度的时候是链式求导,比如一个只有4个隐层的网络:


  图中是一个四层的全连接网络,假设最简单的情况,激活函数为

sigmoid的导数最大值为1/4,在求梯度的过程中,很容易出现梯度消失的情况。发生梯度爆炸的情况是w > 4才可能发生。relu可以避免这些。

2.3良好的参数初始化策略也能缓解梯度爆炸问题(权重正则化)

2.4使用残差结构

2.5使用lstm

相关文章

网友评论

      本文标题:梯度消失和梯度爆炸

      本文链接:https://www.haomeiwen.com/subject/yyrpbftx.html