美文网首页程序员
ReLu(Rectified Linear Units)激活函数

ReLu(Rectified Linear Units)激活函数

作者: d46138a62446 | 来源:发表于2017-03-20 20:57 被阅读2203次

    Sigmoid函数以及传统线性函数

    在ReLU激活函数出现之前,神经网络训练都是勇Sigmoid作为激活函数。其中Sigmoid函数主要分为Logistic-Sigmoid和Tanh-Sigmoid,这两者被视为神经网络的核心所在。

    因为Sigmoid函数具有限制性,输出数值在0~1之间,符合概率输出的定义。并且非线性的Sigmoid函数在信号的特征空间映射上,对信号的中央区的信号增益比较大,对两侧的信号增益小。从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将重点特征推向中央区,将非重点特征推向两侧区。从这点来看Sigmoid函数要比更加早期的线性激活函数(y=x),以及阶梯激活函数的效果要好上不少。

    但是当神经网络层数较多的时候,Sigmoid函数在反向传播中梯度值会逐渐减小,在经过多层的反向传递之后,梯度值在传递到神经网络的头几层的时候就会变得非常小,这样的话根据训练数据的反馈来更新神经网络的参数会变得异常缓慢,甚至起不到任何作用。这种情况我们一般称之为梯度弥散(Gtadient Vanishment),而ReLU函数的出现很大一部分程度上解决了梯度弥散的问题。

    近似生物神经激活函数:Softplus & ReLu

    2001年,神经科学家Dayan、Abott从生物学角度,模拟出了脑神经元接受信号更精确的激活模型。

    这个模型对比Sigmoid系主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性(重点,可以看到红框里前端状态完全没有激活)
    这种模式非常类似于人脑的阈值响应机制。信号在超过某一个阈值之后,神经元才会进入兴奋和激活的状态,平时则往往处于抑制状态。ReLU可以很好的传递梯度,经过多次的反向传播,梯度依旧不会大幅度的减小,适合适应训练很深的神经网络。

    Softplus虽然具有单侧异质性,但是却没用稀疏激活性。这里指出神经元编码的工作方式是具有稀疏性的,推测大脑同时被激活的神经元只有1%~4%。神经元只会对输入信号有少部分选择性响应,大量的不相关信号被屏蔽了,这样可以更有效率的提取重要的特征。

    相关文章

      网友评论

        本文标题:ReLu(Rectified Linear Units)激活函数

        本文链接:https://www.haomeiwen.com/subject/yqiinttx.html