美文网首页机器学习与深度学习
[网络层]什么是 BatchNormal

[网络层]什么是 BatchNormal

作者: LCG22 | 来源:发表于2021-03-18 18:03 被阅读0次

1、什么是批正则化(BatchNormal)

对输入的批数据进行归一化,映射到均值为 0 ,方差为 1 的正态分布。同时因为将输入数据都映射到了原点周围,会导致激活函数表达能力变差,所以又引入了缩放和平移,计算公式如下:

2、为什么要引入批正则化

因为每一批的数据的数据分布会有差别,为了能够使每一批的数据分布相同,所以才要进行批归一化

3、批正则化的优点

能够使得每批的数据分布一致,同时能够避免梯度消失。例如对于 sigmoid 来说,sigmoid 的梯度分布图为一个倒 U 型,且在 x 取值为 0 时的梯度最大,而批正则化操作恰好可以让 x 的值大部分都分布在 0 附近

4、批正则化的缺点

① 当批的大小较小时,计算得到的均值和方差不准确,使归一化的效果变差,导致模型的性能下降

② 当批的大小较大时,内存可能不足

5、批正则化的具体计算过程

BN:批量归一化,往batch方向做归一化,归一化维度是[N,H,W]

LN:层次归一化,往channel方向做归一化,归一化维度为[C,H,W]

IN:实例归一化,只在一个channel内做归一化,归一化维度为[H,W]

GN:介于LN和IN之间,在channel方向分group来做归一化,归一化的维度为[C//G , H, W]

6、pytorch 的 BatchNorm2d 作用和参数详解

官网链接:https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html

接口:torch.nn.BatchNorm2d(num_featureseps=1e05momentum=0.1affine=True

track_running_stats=True)

1.num_features:一般输入参数为batch_size*num_features*height*width,即为其中特征的数量

2.eps:分母中添加的一个值,目的是为了计算的稳定性,默认为:1e-5

3.momentum:一个用于运行过程中均值和方差的一个估计参数(我的理解是一个稳定系数,类似于SGD中的momentum的系数)

4.affine:当设为true时,会给定可以学习的系数矩阵gamma和beta

5.track_running_stats:由于在测试阶段,存在输入单样本或少量样本的情况,为了避免使用批正则化操作而导致归一化的效果差的问题,此时如果 track_running_stats=True,则不会进行批正则化,而是使用指定的均值和方差来进行计算,如果 track_running_stats=False,则仍会使用批正则化

例子:

import torch

input_tensor = torch.randn([2, 4, 5, 3])

batch_norm = torch.nn.BatchNorm2d(num_features=4)

result = batch_norm(input_tensor)

print(result.shape)

print(result)

部分结果:

torch.Size([2, 4, 5, 3])

tensor([[[[ 0.2061, -0.2501,  0.0601],

          [-0.5218, -1.0619, -1.4185],

          [ 0.1908,  1.2295, -0.7729],

          [-0.6448, -1.3476,  1.2012],

          [ 0.5188,  1.2980, -1.4802]],

        [[ 1.0705, -1.8748,  0.3279],

          [-0.2957,  2.0822, -0.8830],

          [ 0.3909,  1.2703, -1.8282],

          [ 1.4113, -0.6184,  0.7101],

          [-1.1876, -1.4167,  0.0765]],

        [[ 1.0806,  1.4385, -1.7109],

          [ 1.0923, -0.7254, -1.5689],

          [-0.0218, -0.4633, -0.0800],

          [-1.2303, -0.4087,  1.2155],

          [ 0.5398,  0.3635, -1.3078]],

相关文章

  • 深度学习知识汇总

    网络层: 1、[网络层]什么是 BatchNormal[https://www.jianshu.com/p/913...

  • [网络层]什么是 BatchNormal

    1、什么是批正则化(BatchNormal) 对输入的批数据进行归一化,映射到均值为 0 ,方差为 1 的正态分布...

  • BatchNormal层略记

    历史原因 自VGG开始为了追求更高的性能,大家都把网络堆的越来越深,然而网络变得越来越难以训练,主要原因在于浅层参...

  • [网络层]什么是卷积

    参考资料: CNN中常用的四种卷积详解[https://cloud.tencent.com/developer/a...

  • [网络层]什么是 Dropout

    参考资料: 深度学习中Dropout原理解析[https://zhuanlan.zhihu.com/p/38200...

  • JavaSE Day23 网络编程

    1. 网络分层通常是 5 层,是哪 5 层? 上面 4 层主要对应的协议是什么? 2. 运输层包装了什么?网络层包...

  • 网络协议

    网络协议 网络的五层划分是什么? 应用层,常见协议:HTTP、FTP 传输层,常见协议:TCP.UDP 网络层,常...

  • IOS三层/四层架构

    ios三层/四层架构是什么: ios三层架构主要是,网络层,逻辑层,UI层。 ios四层架构主要是,网络层,数据层...

  • 网络的五层协议指什么?作用是什么?

    网络的五层协议指什么?网络的五层协议主要包括:物理层、数据链路层、网络层、传输层、应用层,接下来小编带你详细的了解...

  • 2018-06-05 三层网络结构(核心层 汇聚层 接入层)

    转载自:三层网络结构(核心层 汇聚层 接入层)三层网络结构: 三层网络结构是采用层次化架构的三层网络。三层网络架构...

网友评论

    本文标题:[网络层]什么是 BatchNormal

    本文链接:https://www.haomeiwen.com/subject/hwqpcltx.html