美文网首页TensorFlow我爱编程
TensorFlow实现‘批标准归一化’详解

TensorFlow实现‘批标准归一化’详解

作者: FFFeiYee | 来源:发表于2018-02-25 09:54 被阅读2310次

    卷首语:

    首先,笔者在这里祝大家新年快乐!!!今天我们来探讨的问题是BN层在TensorFlow中的实现,以实践为主,理论方面会跳过一些不易被理解的部分,让大家可以快速搭建并投入使用。

    在文章的最后我也会给出相应的效果对比,犹豫要不要学习的读者可以先看看最后在做决定~

    在训练模型时,我们经常会在一些需要调整的参数上浪费时间:学习率,学习衰减率,正则……

    况且即便我们调整了很多次参数,也未必见得可以提高模型的训练效果,甚至还有可能产生梯度消失等等一系列令人头疼的问题。

    但是,这种现象在Inception-v2中就已经发生了改变。在Inception模型升级时引入了一种新的网络层“Batch Normalization”

    比较官方的公式,不懂的读者可以直接忽略

    为了降低学习难度,笔者在这里给出一个精简的公式

    BN公式

    下面,让我们对公式逐一地进行分解(注:有微积分基础的读者想必就不用我多说了,可以跳过理论这段)

    均值与方差

    均值(mean):

    首先,让我们假设一数组:X = [1,2,3,4,5]

    mean = 数组和/数量

    mean = (1+2+3+4+5)/5

    mean = 3

    方差(variance):

    让我们继续使用上一数组X

    variance = (X12+ X22++ Xn2)/ n

    variance = (12+ 22 + 32 + 42 + 52)/ 5

    variance = (1 + 4 + 9 + 1 6 + 2 5 )/ 5

    variance =  45 / 5

    variance =  9

    在TensorFlow中,该公式内的“均值”与“方差”可通过tf.nn.moments()函数来计算

    内部参数

    x:输入进行计算的张量

    axes:需要计算的维度

    name:命名

    keep_dims:是否保持维度

    TensorFlow实现

    缩放与偏移

    在公式中,我们可以将“缩放”与“偏移”理解为两组可被训练的Weights

    缩放(scale):

    在定义scale时一般初始化为0,维度必须和mean的一致

    TensorFlow实现

    偏移(offset):

    定义offset的情况和scale基本一致,但要注意的是offset一般情况下初始化为1

    TensorFlow实现

    按照上面所讲的,公式中的内容我们已经解析完全,接下来我们只需要套用一个现成的函数:

    TensorFlow实现

    神来一笔:Variance_epsilon

    在上面的函数中,我们将“输入”“均值”“方差”“偏移”“缩放”都添加了进去,最后还有个参数:variance_epsilon = 0.001

    这个参数的作用在官方解释为:A small float number to avoid dividing by 0.

    大概的意思就是需设定一个浮点数用来避免除以0产生的梯度爆炸

    虽然在方差被除等于零是几率很小的事,可在几十层甚至几百层的神经网络里,计算量也要大的惊人,根据墨菲定律:会出错的事总会出错

    滑动平均与滑动方差

    注:BN层在训练与测试时所用的滑动平均和滑动方差不同

    申请滑动平均与滑动方差(这里就应该不用我多叙述了,纯基础范围,不太理解的可以去找一下关于滑动平均的博文):

    TensorFlow实现

    计算滑动平均与滑动方差:

    TensorFlow实现

    存储优化参数:

    TensorFlow实现 TensorFlow实现

    如此一来,在进行网络训练时,将is_training设为True;测试网络时设为False即可。

    精简代码

    在前文中我们写了很多行代码才实现了BN层的基本功能。

    但是,我们完全可以用一行代码进行!

    下面三种函数都可以实现BN层,因为都是封装好的函数,有兴趣的读者完全可以自行测试。

    TensorFlow实现

    有BN层的仿Lenet-5模型前趋关系代码:

    前趋关系

    关于详细如何实现BN层的,可以参考我给出的实例代码,基于MNIST数据集非常简单:https://pan.baidu.com/s/11cnPkDAiuOFN4wgUv-l7_w

    卷尾语万般不愿,终于还是开学了...希望这学习的学习能有所提高!

    相关文章

      网友评论

        本文标题:TensorFlow实现‘批标准归一化’详解

        本文链接:https://www.haomeiwen.com/subject/burlxftx.html