一、常用激活函数
Sigmoid 函数
每个激活函数(或非线性函数)的输入都是一个数字,然后对其进行某种固定的数学操作。Sigmoid 函数的曲线如下图所示:
数学公式如下所示:
它对于神经元的激活频率有良好的解释:从完全不激活(0)到在求和后的最大频率处的完全饱和(saturated)的激活(1)。不过它也有主要缺点:
- Sigmoid 函数饱和使梯度消失。Sigmoid 神经元有一个不好的特性,就是当神经元的激活在接近0或1处时会饱和:在这些区域,梯度几乎为0。在反向传播的时候,如果局部梯度太小,那么相乘的结果会接近 0。
- 函数的输出不是零中心的。
Tanh 函数
和 Sigmoid 函数一样,也存在饱和问题,但是它的输出是零中心的,所以 tanh 比 Sigmoid 函数更常用。注意 tanh 神经元是一个简单放大的 sigmoid 神经元,具体说来就是:
公式如下:
ReLU 函数
函数公式为 图像如下:
优点:
- 相较于 sigmoid 和 tanh 函数,ReLU 对于随机梯度下降的收敛有巨大的加速作用( Krizhevsky 等的论文指出有6倍之多)。据称这是由它的线性,非饱和的公式导致的。
- sigmoid 和 tanh 神经元含有指数运算等耗费计算资源的操作,而 ReLU 可以简单地通过对一个矩阵进行阈值计算得到。
缺点:
- 在训练的时候,ReLU单元比较脆弱并且可能“死掉”。Leaky ReLU 是为解决“ReLU死亡”问题的尝试。ReLU中当x<0时,函数值为0。而Leaky ReLU则是给出一个很小的负数梯度值,比如0.01。
Maxout 函数
Maxout 是对 ReLU 和 leaky ReLU 的一般化归纳,它的函数是:。ReLU 和 Leaky ReLU 都是这个公式的特殊情况(比如 ReLU 就是当时候)。这样 Maxout 神经元就拥有 ReLU 单元的所有优点(线性操作和不饱和),而没有它的缺点(死亡的 ReLU 单元)。然而和 ReLU 对比,它每个神经元的参数数量增加了一倍,这就导致整体参数的数量激增。
二、总结
- 在同一个网络中混合使用不同类型的神经元是非常少见的,虽然没有什么根本性问题来禁止这样做。
- 用 ReLU 非线性函数。注意设置好学习率,或许可以监控你的网络中死亡的神经元占的比例。如果单元死亡问题困扰你,就试试 Leaky ReLU 或者 Maxout,不要再用 sigmoid 了。也可以试试 tanh,但是其效果应该不如 ReLU 或者 Maxout。
网友评论