6.2、解决vanishing gradient问题

作者: 遇见百分百 | 来源:发表于2018-05-27 09:30 被阅读0次

解决vanishing gradient问题：

矩阵和向量的表示，与之前类似所以只要是sigmoid函数的神经网络都会造成gradient更新的时候及其不稳定， vanishing or exploding问题。

训练深度神经网络的其他难点: 2010 Glorot and Bengio*: sigmoid函数造成输出层的activation大部分饱和0，并且建议了其他的activation函数

2013 Sutskever, Martens, Dahl and Hinton*: 随机初始权重和偏向时, 提出momentum-based stochastic gradient descent

综上所属, 训练深度神经网络中有很多难点.

本节课：神经网络的不稳定性

activation方程的选择

初始化权重和偏向的方法

具体更新的过程 hyper-parameter的选择

这些目前都是当前学术界研究的课题, 已经取得一些有效的解决方法解决vanishing gradient方法：

Sigmoid函数值在[0, 1], ReL函数值在[0,∞], 所以sigmoid函数方面来描述概率，而ReL适合用来描述实数

Sigmoid函数的gradient随着x增大或减小和消失

ReL 函数不会：

gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势：

不会产生vanishing gradient的问题

网友评论

本文标题：6.2、解决vanishing gradient问题

本文链接：https://www.haomeiwen.com/subject/jlmmjftx.html

6.2、解决vanishing gradient问题