理解Batch Normalization系列2——训练及评估（

作者: soplars | 来源:发表于2019-12-09 14:19 被阅读0次

理解Batch Normalization系列2——训练及评估（
batch_normalization
理解Batch Normalization系列3——为什么有效及
Normalization
Batch normalization理解
菜鸟实习日记~day14（BN层）
多角度认识Batch Normalization
BN（Batch Normalization）和TF2的BN层
【译】TensorFlow实现Batch Normalizati
CNN的batch normalization意义

上一期介绍了Batch Normalization的前向传播，然而想法美好，然而能否计算、如何计算这些新参数才是重点。

系列目录

理解Batch Normalization系列1——原理

理解Batch Normalization系列2——训练及评估

理解Batch Normalization系列3——为什么有效及若干讨论

理解Batch Normalization系列4——实践

本文目录
1 训练阶段
1.1 反向传播
1.2 参数的初始化及更新
2 评估阶段
2.1 来自训练集的均值和方差
2.2 评估阶段的计算
3 总结
参考文献

先放出这张图，帮助记住。

img1.png

图 1. BN的结构

1 训练阶段

引入BN，增加了 $\mu$ 、 $\sigma$ 、 $\gamma$ 、 $\beta$ 四个参数。

这四个参数的引入，能否计算梯度？它们分别是如何初始化与更新？

1.1 反向传播

神经网络的训练，离不开反向传播，必须保证BN的标准化、缩放平移两个操作必须可导。

缩放平移就是一个线性公式，求导很简单。而对于标准化时的统计量，看起来有点无从下手。其实是凭借图1的变量关系，可以绘制计算图，如图2所示。Frederik Kratzert 在这篇博文中有详细的计算，对每一个环节都进行了详细的描述。

im2.png

图 2. 求解BN反向传播的计算图 (来源: 这篇博文)

由图2可见：

每个环节都可导
只要求出各个环节的导数
用链式法则（串联关系就相乘，并联关系就相加）求出总梯度。

狗尾续貂，对这个反传大致做了一个流程图，如图3所示，帮助理解。

im3.png

图 3. BN层反传的流程图 (来源: 这篇博文)

注意，均值的梯度、方差的梯度的计算，只是为了保证梯度的反向传播链路的通畅，而不是为了更新自己（没明白下文还会解释）；缩放因子 $\gamma$ 和j和平移因子 $\beta$ 的梯度传播则和权重W一样，不影响反向传播链路的通畅，只是为了更新自己。

最后的结果就是原论文中表述：

im4.png

图4. BN的反向传播. (来源: Batch Normalization Paper)

如果是从事学术，不妨练练手。

1.2 参数的初始化及更新

讨论一下图1中的6个参数的初始化及更新问题。

W

初始化用标准正态分布，更新用梯度下降。

与经典网络的初始化相同，初始化一个标准正态分布（即Xavier方法）。
b

省略掉该参数。

在经典的神经网络里，b作为偏置，用于解决那些W无法通过与x相乘搞定的"损失减少要求"，即对于本层所有神经元的加权和进行各自的平移。而加入BN后， $\beta$ 的作用正是进行平移。b的作用被 $\beta$ 所完全替代了，因此省略掉b。

了解过ResNet结构的朋友会发现该网络中的卷积，都没有偏置，为什么？下面截图是Kaiming He在github上回答原话。（踩坑无数必须体会深刻）

im5.png

图5. BN的加入导致本层的偏置b失效

$\mu$ 和 $\sigma$

初始化取决于统计量，仅更新梯度，但不更新值本身。

在训练阶段，每个mini-batch上进行前向传播时，通过对本batch上的m个样本进行统计得到；

在反向传播时，计算出它们的梯度 $l$ 对 $\mu$ 的梯度、 $l$ 对 $\sigma$ 的梯度，用于进行梯度传播。
但是 $\mu$ 和 $\sigma$ 这两个值本身不必进行更新，因为在下一个mini-batch会计算自己的统计量，所以前一个mini-batch获得的 $\mu$ 和 $\sigma$ 没意义。
$\gamma$ 和 $\beta$

初始化为1、0，更新用梯度下降。

根据我们在《理解Batch Normalization系列1——原理》的解读， $\gamma$ 作为“准方差”，初始化为一个全1向量；而 $\beta$ 作为"准均值”，初始化为一个全0向量，他俩的初始值对于刚刚完成标准正态化的 $\hat{\vec{x}}$ 来说，没起任何作用。

至于将要变成什么值，起多大作用，那就交给后续的训练。即采用梯度下降进行更新，方式同 $W$ 。

2 评估阶段

$\gamma$ 、 $\beta$ 是在整个训练集上训练出来的，与 $W$ 一样，训练结束就可获得。

然而， $\mu$ 和 $\sigma$ 是靠每一个mini-batch的统计得到，因为评估时只有一条样本，batch_size相当于是1，在只有1个向量的数据组上进行标准化后，成了一个全0向量，这可咋办？

2.1 来自训练集的均值和方差

做法是用训练集来估计总体均值 $\mu$ 和总体标准差 $\sigma$ 。

简单平均法

把每个mini-batch的均值和方差都保存下来，然后训练完了求均值的均值，方差的均值即可。
移动指数平均（Exponential Moving Average）

这是对均值的近似。

仅以 $\mu$ 举例：

$\mu_{total}=decay*\mu_{total}+(1-decay)*\mu$

其中decay是衰减系数。即总均值 $\mu_{total}$ 是前一个mini-batch统计的总均值和本次mini-batch的 $\mu$ 加权求和。至于衰减率 decay在区间 $[0,1]$ 之间，decay越接近1，结果 $\mu_{total}$ 越稳定，越受较远的大范围的样本影响；decay越接近0，结果 $\mu_{total}$ 越波动，越受较近的小范围的样本影响。

事实上，简单平均可能更好，简单平均本质上是平均权重，但是简单平均需要保存所有BN层在所有mini-batch上的均值向量和方差向量，如果训练数据量很大，会有较可观的存储代价。移动指数平均在实际的框架中更常见（例如tensorflow），可能的好处是EMA不需要存储每一个mini-batch的值，永远只保存着三个值：总统计值、本batch的统计值，decay系数。

在训练阶段同步获得了 $\mu_{total}$ 和 $\sigma_{total}$ 后，在评估时即可对样本进行BN操作。

2.2 评估阶段的计算

$y=\gamma\frac{x-\mu_{total}}{\sqrt{\sigma_{total}^2}}+\beta$

为避免分母不为0，增加一个非常小的常数 $\epsilon$ ，并为了计算优化，被转换为：
$y=\frac{\gamma}{\sqrt{\sigma_{total}^2}+\epsilon}x+(\beta-\frac{\gamma}{\sqrt{\sigma_{total}^2}+\epsilon}\mu_{total})$
这样，只要训练结束， $\frac{\gamma}{\sqrt{\sigma_{total}^2}+\epsilon}、\mu_{total}、\beta$ 就已知了，1个BN层对一条测试样本的前向传播只是增加了一层线性计算而已。

3 总结

用图6做个总结。

im6.png

图6. BN层相关参数的学习方法

鬼斧神工的构造，鬼斧神工的参数获取方法，这么多鬼斧神工，需要好好消化消化。

请见下一期《理解Batch Normalization系列3——为什么有效及若干讨论》

参考文献

[1] https://arxiv.org/pdf/1502.03167v3.pdf

[2] https://r2rt.com/implementing-batch-normalization-in-tensorflow.html

[3] Adjusting for Dropout Variance in Batch Normalization and Weight Initialization

[4] https://www.jianshu.com/p/05f3e7ddf1e1

[5] https://www.youtube.com/watch?v=gYpoJMlgyXA&feature=youtu.be&list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&t=3078

[6] https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html

[7] https://www.quora.com/In-deep-learning-networks-could-the-trick-of-dropout-be-replaced-entirely-by-batch-normalization

[8] https://panxiaoxie.cn/2018/07/28/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0-Batch-Normalization/

[9] https://www.tensorflow.org/api_docs/python/tf/layers/batch_normalization

[10] https://www.quora.com/In-deep-learning-networks-could-the-trick-of-dropout-be-replaced-entirely-by-batch-normalization

理解Batch Normalization系列2——训练及评估（
上一期介绍了Batch Normalization的前向传播，然而想法美好，然而能否计算、如何计算这些新参数才是重...
batch_normalization
normalization 批标准化(batch normalization)理解tensorflow中batch...
理解Batch Normalization系列3——为什么有效及
前面两期，我们了解了原理、训练及评估，然而为什么有效及若干细节仍值得讨论。系列目录理解Batch Normal...
Normalization
BN (Batch Normalization) 1.深度学习中的Batch Normalization 2.Ba...
Batch normalization理解
在学习源码的过程中，发现在搭建网络架构的时候，经常会用到bn算法（即batch_normalization，...
菜鸟实习日记~day14（BN层）
科研： BN层 Batch Normalization是由google提出的一种训练优化方法。参考论文：Batch...
多角度认识Batch Normalization
补充：关于BatchNorm的理解：观点：Although batch normalization has en...
BN（Batch Normalization）和TF2的BN层
1、Batch Normalization 在讨论Batch Normalization之前，先讨论一下featu...
【译】TensorFlow实现Batch Normalizati
原文：Implementing Batch Normalization in Tensorflow来源：R2RT ...
CNN的batch normalization意义
batch normalization begin：在神经网络训练开始前，都对输入数据做一个归一化处理；batch...