1、非线性激活函数
sigmoid、tanh
问题:1、计算量大;2、容易有梯度消失问题
梯度消失问题:在反向传播中,当梯度小于1时(如sigmoid和tanh),往回传的层数愈多,梯度越小,将导致模型难以训练。
假设一个三层网络 f,g,h:, 可以看到如果梯度都是小于1,每一层的回传梯度都会发生衰减。
2、修正线性单元,rectifier linear unit,ReLu
优点:1、计算量小,同时能实现非线性映射;2、不存在梯度消失问题;3、忽略小于0的输入,使得网络具有稀疏性,即对于一个输入,网络中只有部分结构会被激活;
缺点:神经元死亡问题,即当一个很大的梯度经过某个神经元,经过更新后,这个神经元可能对所有的输入输出都是负值,那么这个神经元就死亡了。这个问题当学习率设的过大时,更容易发生。
3、learky ReLu
为大于0的一个小数,一般为0.01。
解决了relu的神经元死亡问题
网友评论