【专栏2】激活函数（一）浅谈激活函数以及其发展

【专栏2】激活函数（一）浅谈激活函数以及其发展

作者: MomodelAI | 来源:发表于2020-09-01 11:04 被阅读0次

【专栏2】激活函数（一）浅谈激活函数以及其发展
激活函数softmax-P2分类任务
6.神经网络训练细节part1
神经网络[输出层]激活函数的选择
01 神经网络激活函数
tanh函数&logistic函数
深度学习知识点
机器学习之神经网络
[Machine Learning From Scratch]-
理解激活函数

激活函数是神经网络的相当重要的一部分，在神经网络的发展史上，各种激活函数也是一个研究的方向。我们在学习中，往往没有思考过——为什么用这个函数以及它们是从何而来？

image

生物神经网络曾给予了人工神经网络相当多的启发。如上图，来自树突信号不断累积，如若信号强度超过一个特定阈值，则向轴突继续传递信号。如若未超过，则该信号被神经元“杀死”，无法继续传播。

在人工神经网络之中，激活函数有着异曲同工之妙。试想，当我们学习了一些新的东西之后，一些神经元会产生不同的输出信号，这使得神经元得以连接。

sigmoid函数也许是大家初学神经网络时第一个接触到的激活函数，我们知道它有很多良好的特性，诸如能将连续的实值变换为0到1的输出、求导简单，那么这个函数是怎么得到的呢？本文从最大熵原理提供一个角度。

1 sigmoid函数与softmax函数

1.1 最大熵原理与模型

最大熵原理是概率模型学习的一个准则<u>1</u>。最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

假设离散随机变量

image

的概率分布是

image

，则其熵是

image

熵满足下列不等式：

image

式中，

image

是

image

的取值个数，当且仅当

image

的分布是均匀分布时右边的等号成立。这就是说，当

image

服从均匀分布时，熵最大。

直观而言，此原理认为要选择的概率模型首先必须满足已有的条件，在无更多信息的条件下没其他不确定的部分都是等可能的。

假设分类模型是一个条件概率分布

image

，给定一个训练集

image

，可以确定

image

的经验分布和边缘分布

image

的经验分布，分别以

image

和

image

表示。

用特征函数（feature function）

image

描述输入

image

和

image

之间的某一个事实，定义为：

image

由上述信息，可以假设

image

关于经验分布

image

的期望值和关于模型

image

与经验分布

image

的期望值相等，即：

image

结合条件，该问题等价于约束最优化问题：

image

由拉格朗日乘子法，问题转换为求如下式子的最小值

image

此时，我们对

image

求

image

的导数：

image

令其导数值为0，在

image

的情况下，解得：

image

由于

image

，得：

image

由上面两式可得：

image

细心的同学不难发现，这和softmax函数十分相近，定义

image

，即可得到softmax函数：

image

那么sigmoid函数呢？其实该函数就是softmax函数的二分类特例：

image

说完了推导，就来谈谈这两函数的特点。sigmoid函数的优点前文已提到，但sigmoid在反向传播时容易出现“梯度消失”的现象。

image

可以看出，当输入值很大或很小时，其导数接近于0，它会导致梯度过小无法训练。

2 ReLU函数族的崛起

image

如图所示，ReLU函数很好避免的梯度消失的问题，与Sigmoid/tanh函数相比，ReLU激活函数的优点是：

· 使用梯度下降（GD）法时，收敛速度更快。

· 相比ReLU只需要一个门限值，即可以得到激活值，计算速度更快。
缺点是： ReLU的输入值为负的时候，输出始终为0，其一阶导数也始终为0，这样会导致神经元不能更新参数，也就是神经元不学习了，这种现象叫做“Dead Neuron”。

为了解决ReLU函数这个缺点，又出现了不少基于ReLU函数的发展，比如Leaky ReLU(带泄漏单元的ReLU)、 RReLU（随机ReLU）等等，也许你有一天也能发现效果更好的ReLU函数呢！

引用

[1] [李航. 统计学习方法[M]. 清华大学出版社, 2012.]

相关文章

【专栏2】激活函数（一）浅谈激活函数以及其发展
激活函数是神经网络的相当重要的一部分，在神经网络的发展史上，各种激活函数也是一个研究的方向。我们在学习中，往往没有...
激活函数softmax-P2分类任务
激活函数种类激活函数作用激活函数深度学习常用激活函数之— Sigmoid & ReLU & Softmax 深...
6.神经网络训练细节part1
一、激活函数前边我们学到，一个节点的输出会进入激活函数进行处理常见的激活函数有以下 sigmoid激活函数 s...
神经网络[输出层]激活函数的选择
目录 1.输出层激活函数的选择 2.Softmax激活函数的特征 3.Softmax激活函数的实现以及优化对于机...
01 神经网络激活函数
q1：激活函数是干嘛的？ q2：激活函数有哪些分类？ q3：现在最好用的激活函数是哪些？为什么好用？ ------...
tanh函数&logistic函数
传统Sigmoid系激活函数传统Sigmoid系激活函数传统Sigmoid系激活函数，Sigmoid系（Log...
深度学习知识点
1. 写出常用的激活函数及其导数 sigmoid tanh ReLU Leaky ReLU Softplus 2....
机器学习之神经网络
什么是神经网络就是使用了平滑的激活函数的多层感知机激活函数什么是激活函数呢？激活函数就是从输入值到对应输出...
[Machine Learning From Scratch]-
激活层激活函数定义封装激活层
理解激活函数
一、何为激活函数？深度学习中，激活函数通常指能够实现非线性映射的函数二、为什么需要非线性激活函数？定义：这里...

网友评论

本文标题：【专栏2】激活函数（一）浅谈激活函数以及其发展

本文链接：https://www.haomeiwen.com/subject/blzmsktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|【专栏2】激活函数（一）浅谈激活函数以及其发展|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！