激活函数学习笔记

作者: 开飞机的乔巴 | 来源:发表于2019-12-24 12:19 被阅读0次

tensorflow--激活函数
激活函数softmax-P2分类任务
2019-10-09
神经网络：激活函数
激活函数学习笔记
ReLu 激活函数理解
理解激活函数
2019-05-06
65-R语言训练深度预测模型
3. 深度学习- 常用的激活函数

本博客内容来源于网络以及其他书籍，结合自己学习的心得进行重编辑，因为看了很多文章不便一一标注引用，如图片文字等侵权，请告知删除。

传统2D计算机视觉学习笔记目录------->传送门
传统3D计算机视觉学习笔记目录------->传送门
深度学习学习笔记目录 ------------------->传送门

简介

激活函数作为神经网络中的一个基础单元，在神经网络的中产生了很大的作用。本文主要是介绍一下当前学习过程中了解的激活函数，了解激活函数的作用与特点，对常见的激活函数进行汇总，方便以后查看。

刚才一看日历，今晚是平安夜，祝同学们也度过一个温馨的夜晚。

愿每天都如此温馨

什么是激活函数？

对于什么是激活函数？大家都有个基础的认知就是激活函数就是非线性函数，负责将神经元的输入映射到输出端，添加非线性因素。这个是直接运算上的理解。那为什么叫激活函数呢？而不叫其他巴拉巴拉函数呢？这也是对神经系统的仿生，对于一个神经元，当输入激励达到一定强度时，该神经元才会被激活，产生相应的输出信号，那么模拟这个细胞激活过程的函数，就叫激活函数。

为什么需要激活函数？

在了解什么是激活函数的基础上，那我们为什么需要激活函数呢？需要当前是激活函数对整个神经网络产生了正面的影响。在不使用激活函数的神经网络上，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，在一定程度上，可以转换到一个单层网络，网络较简单。

我们需要去解决一些复杂的问题，其实就是使用一个非常复杂的函数去做逼近。那么这么一个复杂函数怎么获得，正是通过神经网络进行学习来逼近这么一个函数。一个简单的线性的函数当然满足不了这么一个函数。通过应用激活函数，以便使网络更加强大，增加它的能力，使它可以学习复杂的事物，表示输入输出之间非线性的复杂的任意函数映射。

所以现在要解决一个复杂的问题，神经网络中是不可避免使用非线性的激活函数的。

常见激活函数

接触神经网络会经常听到Sigmoid、ReLU等等，这些都是激活函数，下面我们来整理一下经常使用的激活函数，介绍一下其特点。

Sigmoid

函数公式：

函数图像：

导数：

特点：
Sigmoid 函数输入是一个实值的数，输出压缩到0~1的范围内。大的正数被映射成1，小的负数被映射成0，很好的表达神经元的激活与未激活的状态。

Sigmoid 函数容易饱和，当输入数值绝对值越大，其梯度接近于0，这就导致在反向传播过程中，权重难以更新。

其次，Sigmoid的输出不是0均值的，会导致后面的神经元的输入是非0均值的信号。如果后层神经元的输入都为正，那么对权重参数求局部梯度则都为正，这样在反向传播的过程中权重参数要么都往正方向更新，要么都往负方向更新，会使得收敛效果变慢。

Sigmoid 的计算量较大，在正向传播过程中需要进行指数运算。

Tanh

函数公式：

函数图像：

导数：

特点：
可以看出Tanh函数与Sigmoid函数有点相似，Tanh是对Sigmoid函数的改进，将映射范围调整到了(-1,1)区间内，因此是0均值的，解决了Sigmoid不是0均值的缺点。但是梯度消失以及计算量大的缺点仍存在。

ReLU

函数公式：

函数图像：

导数：

特点：
单单从图像上就可以看出与前两者有很大的不同了。relu函数的公式很简单，输入小于0的时候为0，大于0的时候是本身，是目前主流的激活函数。

正方向上，梯度不变，也就不会发生梯度弥散。由于正方向上是线性函数，相比于 sigmoid/tanh需要计算指数等，ReLU 只需要一个阈值就可以得到激活值，计算量大大的减少。

但是如果输入是负值，那么输出就为0，这可能导致后面的网络输入都是0，梯度也是0，造成网络大面积的失活。

此外ReLU 也不是0均值的。

Param Leaky ReLU （直接称为Leaky ReLU吧）

函数公式：

函数图像：

导数：

特点：
LeakyReLU 是对ReLU的改进，在输入是负值的时候，有一个很小的斜率，这样也可以避免ReLU死掉的问题。一般a取一个特别小的值，比如0.001。理论上来讲，Leaky ReLU有ReLU的所有优点，外加不会有ReLU的死亡问题，但是在实际操作当中，并没有完全证明Leaky ReLU总是好于ReLU。