layer normalization 简单总结

作者: yxwithu | 来源:发表于2019-04-24 20:41 被阅读0次

论文： https://arxiv.org/pdf/1607.06450v1.pdf

课代表的总结：
https://zhuanlan.zhihu.com/p/33173246
https://www.jiqizhixin.com/articles/2018-08-29-7

详细的介绍可以参见上述的参考资料，本文简单的做个概括：

layer normalization和batch normalization类似，缓解Internal Covariate Shift问题，可以将数据分布拉到激活函数的非饱和区，具有权重/数据伸缩不变性的特点。起到缓解梯度消失/爆炸、加速训练、正则化的效果。

二者原理上有些不同：
batch normalization对一个神经元的batch所有样本进行标准化，layer normalization对一个样本同一层所有神经元进行标准化，前者纵向 normalization，后者横向 normalization。

batch normalization的缺点：因为统计意义，在batch_size较大时才表现较好；不易用于RNN；训练和预测时用的统计量不同等。
layer normalization就比较适合用于RNN和单条样本的训练和预测。但是在batch_size较大时性能时比不过batch normalization的。

类似的normalization方法还有weight / Instance / group normalization

网友评论

本文标题：layer normalization 简单总结

本文链接：https://www.haomeiwen.com/subject/pzcggqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

layer normalization 简单总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读