美文网首页
梯度消失和梯度爆炸

梯度消失和梯度爆炸

作者: 帅气的我要加油 | 来源:发表于2018-07-09 17:50 被阅读9次

    通常来说,梯度爆炸更容易处理一些。因为梯度爆炸的时候,我们的程序会收到NaN错误。我们也可以设置一个梯度阈值,当梯度超过这个阈值的时候可以直接截取。

    梯度消失更难检测,而且也更难处理一些。总的来说,我们有三种方法应对梯度消失问题:

    1. 合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域。
    2. 使用relu代替sigmoid和tanh作为激活函数。原理请参考上一篇文章零基础入门深度学习(4) - 卷积神经网络激活函数一节。
    3. 使用其他结构的RNNs,比如长短时记忆网络(LTSM)和Gated Recurrent Unit(GRU),这是最流行的做法。我们将在以后的文章中介绍这两种网络。

    相关文章

      网友评论

          本文标题:梯度消失和梯度爆炸

          本文链接:https://www.haomeiwen.com/subject/xzmtpftx.html