神经网络中的一些激活函数

作者: b424191ea349 | 来源:发表于2019-04-02 14:13 被阅读0次

3. 深度学习- 常用的激活函数
机器学习笔记（五）——激活函数
机器学习中常见函数
神经网络的激活函数总结
常用的激活函数
机器学习常见面试问题及答案汇总
ReLU和Dropout
深度学习中的激活函数
激活函数
独家连载 | 常用激活函数讲解

产生背景

在机器学习领域，线性模型是最基础的模型，以逻辑回归和线性回归为例，这两个模型无论通过凸优化还是闭式解都能够高效且可靠的拟合数据。但是现实问题往往是线性不可分的，比如我们在学习svm的时候svm很难解决线性不可分的问题，所以采用和核函数，将一个非线性可分的映射到一个高维空间，进而变得线性可分。我们的激活函数也是为了解决非线性的问题的，它们通过给每个神经元增加非线性函数，进而达到整个神经网络具有拟合非线性的能力。

常见激活函数

sigmoid函数

sigmoid函数是最常用的一个激活函数，在逻辑回归的部分我们使用sigmoid来解决二分类的问题，其公式为：
$f(z)=\frac{1}{1+\exp (-z)}$

求导公式为：
$f^{\prime}(z)=f(z)(1-f(z))$

图像为：

Tanh函数

tanh函数也是一个较常用的函数，其函数式为：
$f(z)=\tanh (z)=\frac{\mathrm{e}^{z}-\mathrm{e}^{-z}}{\mathrm{e}^{z}+\mathrm{e}^{-z}}$

求导公式是：
$f^{\prime}(z)=1-(f(z))^{2}$

图像为：

Relu函数

relu函数是日常使用中用的最多的函数，而且其形式非常简单：
$f(z)=\max (0, z)$

其导函数是：
$f^{\prime}(z)=\left\{\begin{array}{l}{1, z>0} \\ {0, z \leqslant 0}\end{array}\right.$

其函数图像是：

为什么sigmoid函数和tanh函数会出现梯度消失的情况？

首先看sigmoid函数，它是将一个输入映射到一个(0,1)区间，当z很小时， $f(x)$ 趋向于0，当z很大时， $f(z)$ 趋向于1，而它的导数是 $f^{\prime}(z)=f(z)(1-f(z))$ ，这会导致不管z是极大还是极小它的导函数都趋向于0，造成了梯度消失。

而Tanh函数也是一样的，导函数是 $f^{\prime}(z)=1-(f(z))^2$ ，和sigmoid是一样的情况。

Relu函数和sigmoid以及Tanh相比好处在哪？

优点：

首先Relu计算不用计算指数，计算上比后两者简单很多
Relu的非饱和性可以有效的解决梯度消失问题（但是不能完全解决，只能说好一点，同样达到饱和区，也就是z极大或者极小时，后两者梯度一直都是0，Relu最起码保证了正方向的不是0），提供一个相对较宽的边界。（关于饱和的问题可以参考链接2）
Relu的单侧抑制提供了网络稀疏表达的能力，我们都知道希望学习的参数是稀疏的，这样能够有效的抑制过拟合。

缺点：
缺点很直观，当然是函数为负的时候，梯度是0。

为了解决这个缺点，设计了新的激活函数，Leaky ReLU（LReLU）：
$f(z)=\left\{\begin{array}{ll}{z,} & {z>0} \\ {a z,} & {z \leqslant 0}\end{array}\right.$