深度学习知识总结 (2)

作者: LaLa_2539 | 来源:发表于2018-10-23 16:26 被阅读0次

深度学习知识总结 (2)
阿辉：深度学习每日一思记录
如何深度学习
读书笔记｜认知觉醒
《认知觉醒》-1/5-4组-豆豆-如心
《认知觉醒》-2/5-4组-豆豆-泡菜
深度学习知识总结 (1)
如何深度学习
如何深度学习
人工神经网络实现医疗数据分类Python

今天主要讲解一下数据的归一化，包括均值方差归一化方法和广为使用的BN法，在阅读相关方法和文献时，一直存在有很多疑惑，今天终于通过多方查找资料有了一个更为深刻的认识，下面将提出我的一系列问题和相应的解答

（1）为什么数据归一化要除以方差？
（2）加入BN层是为了防止激活函数饱和而致使梯度弥散，可是现在大多数都采用了ReLU激活函数，那为什么还是需要BN层呢？

数据归一化

数据归一化的直观显示

image.png

Batch Normalization

image.png

直观理解

https://www.bilibili.com/video/av16000304?from=search&seid=16219844210746733877

为何要使用BN
（1）在机器学习中的一个经典假设就是源空间和目标空间的数据分布是一致的，神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降中每个batch中的数据分布不同)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因
（2）加快网络训练
我们知道，网络训练时，参数要发生更新，除了输入层的数据之外（因为输入层数据一般会预处理，进行去均值归一化操作），后面每一层的输入数据分布都是在不停变化的，一旦网络某一层的输入数据分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布。我们把网络中间层在训练过程中，数据分布的改变称之为Internal Covariate Shift (ICS)。BN的提出，就是要解决训练过程中，中间层数据分布发生改变的情况
（3）防止出现梯度弥散现象

如图所示， $w = 20$ 时，此时无论 $x$ 如何扩大，神经网络的输出值都是接近于1的，神经网络在初始阶段已经不对那些比较大的输入特征敏感，轻轻拍一下自己的感觉和使劲捶一下的感觉竟然相似，这并不是我们想要的；我们可以对输入数据进行Normalization处理，使输入范围不会太大，落在激活函数的敏感区域，但是上述情况不仅发生在输入，还会发生在隐藏层的输入中，因此提出了 BN 对每一层进行Normalization

为何BN.png
BN输出1.png
BN输出2.png

BN怎么做

image.png

如上图所示，BN主要分为四个步骤：
（1）求每一个训练批次数据的均值
（2）求每一个训练批次数据的方差
（3）使用求得的均值和方差对该批次的训练数据进行归一化
（4）尺度变换和偏移

既然上述步骤（3）已经做了归一化，为什么还要有（4）

为什么要有第（4）步，不是仅使用减去均值除以方差操作就能获得目的效果吗？我们思考一个问题，减均值除方差得到的分布是正态分布，我们能否认为正态分布就是最好或最能体现我们训练样本的特征分布呢？不能，比如数据本身就很不对称，或者激活函数未必是对方差为1的数据最好的效果，比如Sigmoid激活函数，在-1~1之间的梯度变化不大，那么非线性变换的作用就不能很好的体现，换言之就是，减均值除方差操作后可能会削弱网络的性能。针对该情况，在前面三步之后加入第4步完成真正的 Batch Normalization
另一种理解是原文中所说的，仅仅是简单的对网络层输入作归一化可能会改变原本的输入表示，而加入scale and shift操作则是为了让因训练所需而刻意加入的BN能够有可能还原最初的输入，从而保证整个网络的 capacity（实际上BN可以看作是在原模型上加入的新操作，这个新操作很大可能会改变某层原来的输入，当然也可能不改变，不改变的时候就是原来的输入。如此一来，既可以改变同时也可以保持原输入，那么模型的容纳能力就提升了）

为什么使用ReLU激活函数还是需要加入BN层
Caffe中的参数使用

https://blog.csdn.net/shuzfan/article/details/52729424

网友评论

本文标题：深度学习知识总结 (2)

本文链接：https://www.haomeiwen.com/subject/jhyazftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

深度学习知识总结 (2)

数据归一化

Batch Normalization

相关文章

深度学习知识总结 (2)

阿辉：深度学习每日一思记录

如何深度学习

读书笔记｜认知觉醒

《认知觉醒》-1/5-4组-豆豆-如心

《认知觉醒》-2/5-4组-豆豆-泡菜

深度学习知识总结 (1)

如何深度学习

如何深度学习

人工神经网络实现医疗数据分类Python

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读