1.为什么激活函数必须为非线性?
为保证非线性,激活函数必须为非线性函数.
要让你的神经网络能够计算出有趣的函数,你必须使用非线性激活函数.
线性函数,无论你神经网络有多少层,输出都是输入的线性组合,与只有一个隐藏层效果相当,这种情况就是多层感知机(MLP)了。
2.什么样的函数可以做激活函数?
为保证非线性,激活函数必须为非线性函数,但仅仅具有非线性是不够的。
神经网络在本质上是一个复合函数,
这会让我们思考一个问题:
这个函数的建模能力有多强?
即它能模拟什么样的目标函数?
万能逼近(universal approximation)定理:
只要激活函数选择得当,神经元个数足够多,
使用3层即包含一个隐含层的神经网络就可以实现对任何一个从输入向量到输出向量的连续映射函数的逼近。
3.什么样的函数是好的激活函数?
梯度消失?
梯度爆炸?
https://zhuanlan.zhihu.com/p/36763712
网友评论