梯度消失问题与如何选择激活函数

梯度消失问题与如何选择激活函数

作者: 不会停的蜗牛 | 来源:发表于2018-07-17 00:39 被阅读57次

梯度消失问题与如何选择激活函数
ReLu 激活函数理解
激活函数
梯度消失问题：
解决梯度消失和梯度爆炸
如何防止梯度消失和梯度爆炸？
PyTorch 激活函数图形汇总
梯度消失问题的出现和解决
RNN 中的梯度下降和爆炸问题以及LSTM怎样解决这个问题
正则化

本文结构：

什么是梯度消失？
梯度消失有什么影响？
是什么原因？
解决方案有哪些？
如何选择激活函数？

1. 什么是梯度消失？

梯度消失，常常发生在用基于梯度的方法训练神经网络的过程中。

当我们在做反向传播，计算损失函数对权重的梯度时，随着越向后传播，梯度变得越来越小，这就意味着在网络的前面一些层的神经元，会比后面的训练的要慢很多，甚至不会变化。

2. 有什么影响？

网络的前面的一些层是很重要的，它们负责学习和识别简单的模式，也是整个网络的基础，如果他们的结果不准确的话，那么后面层结果也会不准确。

而且用基于梯度的方法训练出参数，主要是通过学习参数的很小的变化对网络的输出值的影响有多大。如果参数的改变，网络的输出值贡献很小，那么就会很难学习参数，花费时间会非常长。

3. 梯度消失的原因？

在训练神经网络时，为了让损失函数越来越小，其中一种优化的方法是梯度下降。梯度下降法简单的来说就是在权重的负梯度方向更新权重，如下面这个公式所示，一直到梯度收敛为零。（当然在实际过程中，会通过设定一个超参数叫做最大跌代数来控制，如果迭代次数太小，结果就会不准确，如果迭代次数太大，那么训练过程会非常长。）

这里就需要计算参数的梯度，方法是用反向传播。

为了推导一下梯度消失的原因，我们来看一个最简单的神经网络的反向传播过程。

每个神经元有两个过程，一个是权重与上一层输出的线性组合，一个是作用激活函数。

来看一下最后的损失对第一层权重的梯度是怎样的：

其中各部分推导：

上面用到的激活函数为 sigmoid 函数，黄色曲线为 Sigmoid 的导数，它的值域在 0 到 1/4 之间：

sigmoid

同时一般情况下神经网络在权重初始化时，会按照高斯分布，平均值为0标准差为1这样进行初始化，所以权重矩阵也是小于1的。

于是可以知道：

由上面的例子可以看出，对第一层的权重求的偏导，就有五个小于1的数相乘，那么当层数越多，这就会以指数级迅速减小。

越靠前的层数，由于离损失越远，梯度计算式中包含的激活函数的导数就越多，那么训练也就越慢。

（那么梯度爆炸，也就是同样的道理，当激活函数的导数大于1的时候，它会呈指数级的增长。）

4. 解决方案有哪些？

由上面的推导我们可以知道，梯度消失的主要原因，主要是和激活函数的导数有关。
所以如果激活函数选择的不合适，就会出现梯度消失问题

当然，除了激活函数，还有其他几种方法：

梯度消失：

逐层“预训练”（pre-training）＋对整个网络进行“微调”（fine-tunning）
选择合适的激活函数
batch normalization 批规范化：通过对每一层的输出规范为均值和方差一致的方法，消除了 w 带来的放大缩小的影响
残差结构
LSTM

梯度爆炸：

梯度剪切（ Gradient Clipping）
权重正则化
选择合适的激活函数
batch normalization 批规范化，
RNN 的 truncated Backpropagation through time ，LSTM

今天先来重点看一下激活函数的选择

5. 那么如何选择激活函数呢？通常都有哪些激活函数, 它们的导数长什么样子呢？

由前面的推导可以知道梯度消失的主要原因，是激活函数的导数小于 1，那么在选择激活函数时，就考虑这一点。

有哪些激活函数可以选择呢？

Relu，

relu

Rectified linear unit，x 大于 0 时，函数值为 x，导数恒为 1，这样在深层网络中使用 relu 激活函数就不会导致梯度消失和爆炸的问题，并且计算速度快。

但是因为 x 小于 0 时函数值恒为0，会导致一些神经元无法激活。

Leaky Relu，

leaky relu

是 ReLU 激活函数的变体，为了解决 Relu 函数为 0 部分的问题，当 x 小于 0 时，函数值为 kx，有很小的坡度 k，一般为 0.01，0.02，或者可以作为参数学习而得。

优点
Leaky ReLU有ReLU的所有优点：计算高效、快速收敛、在正区域内不会饱和
导数总是不为零，这能减少静默神经元的出现，允许基于梯度的学习
一定程度上缓解了 dead ReLU 问题

ELU：

elu

指数线性单元（Exponential Linear Unit，ELU）也属于 ReLU 的变体。x 小于 0 时为 alpha＊（e^x -1）和其它修正类激活函数不同的是，它包括一个负指数项，从而防止静默神经元出现，导数收敛为零，从而提高学习效率。

优点
不会有Dead ReLU问题
输出的均值接近0，zero-centered
缺点
计算量稍大

现在最常用的是 Relu，已经成了默认选择，
sigmoid 不要在隐藏层使用了，如果是二分类问题，可以在最后的输出层使用一下，
隐藏层也可以用 tanh，会比 sigmoid 表现好很多。

此外，下面思维导图总结了其他几种 relu，sigmoid, Tanh 的变体函数，它们的导数，以及优缺点：

relu 及其变体.jpg

tanh 及其变体.jpg

sigmoid 及其变体.jpg

学习资料：
http://neuralnetworksanddeeplearning.com/chap5.html
https://dashee87.github.io/data%20science/deep%20learning/visualising-activation-functions-in-neural-networks/
https://blog.csdn.net/qq_25737169/article/details/78847691
https://www.cnblogs.com/willnote/p/6912798.html
https://www.quora.com/What-is-the-vanishing-gradient-problem
https://ayearofai.com/rohan-4-the-vanishing-gradient-problem-ec68f76ffb9b
https://www.learnopencv.com/understanding-activation-functions-in-deep-learning/

推荐阅读历史技术博文链接汇总
 http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的：
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

相关文章

梯度消失问题与如何选择激活函数
本文结构：什么是梯度消失？梯度消失有什么影响？是什么原因？解决方案有哪些？如何选择激活函数？ 1. 什么...
ReLu 激活函数理解
ReLU激活函数：简单之美深度学习中的激活函数与梯度消失
激活函数
1、非线性激活函数 sigmoid、tanh 问题：1、计算量大；2、容易有梯度消失问题梯度消失问题：在反向传播...
梯度消失问题：
最近碰到这样一个问题：为什么ReLU函数作为激活函数不会有梯度消失问题，明明当x<=0时函数的梯度为0，当他往回...
解决梯度消失和梯度爆炸
1. 解决梯度消失换激活函数(ReLU) 换网络（LSTM、把网络改浅） batch normalization...
如何防止梯度消失和梯度爆炸？
梯度消失和梯度爆炸的原因：在梯度下降的过程中，如果某一层对激活函数求导>1，那么随着层数的增多，最终的求出的梯度更...
PyTorch 激活函数图形汇总
Sigmoid torch.nn.Sigmoid 优点：用于二元分类的激活函数。缺点：梯度消失：当输入 x>...
梯度消失问题的出现和解决
1. 使用二次代价函数引起梯度消失的原因 2. 交叉熵代价函数什么是交叉熵代价函数解决梯度消失问题的原理 3....
RNN 中的梯度下降和爆炸问题以及LSTM怎样解决这个问题
参见以下博客： LSTM：RNN最常用的变体 RNN梯度消失与梯度爆炸的原因 RNN 的梯度消失问题
正则化
BN： 1、梯度好（避免梯度消失，梯度弥散问题）2、使损失函数更加平滑，使用更大学习率，梯度下降更快 BN理解BN...

网友评论

A李旭辉:虽然没钱,但是点赞支持

本文标题：梯度消失问题与如何选择激活函数

本文链接：https://www.haomeiwen.com/subject/gmwipftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据科学家

深度学习之基础

热点阅读

数据科学家

深度学习之基础

神经网路

关于我们|服务条款|联系我们|梯度消失问题与如何选择激活函数|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！