论文名: Bag of Tricks for Image Classification with Convolution Neural Networks
论文地址: http://arxiv.org/pdf/1812.01187v2.pdf
这篇文章是亚马逊李沐团队的一篇技巧(tricks)文章,被CVPR2019收录了。虽然题目是讲的Image Classification,但是作者也说了,在目标检测,实例分类等问题上也是有一定的作用的。在此做下笔记,有理解不对的地方还请大佬们勿喷。
摘要
先看看这篇文章的摘要部分:
image翻译一下:
【 摘要 】 图像分类研究最近取得的许多进展可以归因于训练过程的改进,例如 数据增强 和 优化方法的改变。然而,大多数改进要么只是作为实现细节被简要地提到,要么 只在源代码中可见 。在本文中,我们将 研究这些改进的一系列集合 ,并通过 ablation study 评估它们对最终模型精度的影响。我们将证明,通过将这些改进组合在一起,我们能够显著改进各种 CNN 模型。例如,我们将 ResNet-50 在 ImageNet 上的 top-1 验证精度从 75.3% 提高到 79.29% 。 我们还将证明,图像分类准确性的提高,可以在目标检测和语义分割等其他应用领域带来更好的迁移学习性能。
结论
先上结论:
image论文概要
1.第 2 节,建立了一个 BaseLine 训练过程,
2.第 3 节,讨论了一些有效训练的技巧。
3.第 4 节,回顾了 ResNet 的三个小型模型体系结构调整,并提出了一个新的改进。
4.第 5 节,讨论另外四个训练过程的改进。
5.最后,在第六节中研究这些更准确的模型是否有助于迁移学习。
BaseLine训练过程
不是文章重点,就不细说了。
作者基于MXnet框架复现了几个网络结构,具体指标如下:
tricks结构
论文中的tricks部分将从以下几个部分展开:
image也即:训练速度,网络结构,训练过程优化,迁移学习。
Efficient Training 高效训练
"硬件,尤其是GPU,近年来发展迅速。因此,许多与性能相关的权衡的最佳选择已经改变。例如,现在在训练期间使用更低的数值精度和更大的批量大小更有效。在本节中,我们将介绍各种能够实现低精度和大批量训练的技术,而不会牺牲模型的准确性。有些技术甚至可以提高准确性和训练速度。"
2017年,谷歌大脑发布了一篇论文,从论文的名字,我们就可以看出论文是想干嘛。(谷歌爸爸取名字还真是简单粗暴啊)
image论文中指出,越大的batchsize,能带来越好的结果。
实验结果(b)进一步显示增大 Batch Size 的好处,观察损失值与参数更新次数的关系。
其中:
蓝线代表常见的保持 Batch Size,逐步衰减学习率的方法;
红线代表与之相反的,保持学习率,相应的上升 Batch Size 的策略;
绿线模拟真实条件下,上升 Batch Size 达到显存上限的时候,再开始下降学习率的策略。
显然,增大 Batch Size 的方法中参数更新的次数远少于衰减学习率的策略。
我们再看一张图:
image这张图可以清晰的看到,更多的一些细节:
- Batch_size太小的话,模型在200个epoch内并不会收敛。
- 随着Batch_size增大,处理相同数据量的速度会越来越快。
- 随着Batch_size 增大 ,达到相同精度所需要的epoch数量越来越多。
以上的观点有一点的矛盾,因为,Batch_size增大到某一时刻,会达到时间上的最优。由于最终精度会陷入不同的局部极值,因此Batch_size在增大到某个时刻,达到最终收敛精度上的最后。
在训练的时候,我们都知道要将Batch_size参数设置的大一些。但是我们也知道,过大的Batch_size会造成如下的缺点:1.模型收敛过慢。2.占用更大的显存。3.训练结果反而会比较小的Batch_size训练结果更差。那我们有没有什么办法在增大Batch_size的同时又避免这些缺点呢?
答案当然是有的!
作者整理了以下方法:
Large-batch training 大批量训练
盲目增大批大小其实无益于提升训练效果,但却有各种小技巧。 为了能进行大Batch_size的训练,作者对比了四种启发式方法(什么是启发式方法?)
Linear scaling learning rate 等比例增大学习率
在小批量SGD中,梯度下降是随机过程,因为在每个批次中样本都是随机选择的。 增加批量大小不会改变随机梯度的期望,但会降低其方差。 换句话说,大批量会降低梯度中的噪声,因此我们可以提高学习率,以便进行调整。换句话说就是, 等比例增大学习率是有用的,Accurate, large minibatch SGD: training imagenet in 1 hour.论文中提到,随着批量大小线性增加学习率地 训练 ResNet-50 。
例如:作者按照何恺明的resnet论文中的内容,选择0.1作为Batch_size为256的初始学习率。当第b个batch时,学习率线性增加到0.1×b/256。
Learning rate warmup 学习率预热
这一个技巧是facebook所提出。
image在训练的开始时期,所有的参数都是一个随机值,这样离最终结果差的比较大。使用大的学习率会导致数值的不稳定。可以先采用一个手段使得训练过程稳定下来。这个手段就是“学习率预热”,那么什么是学习率预热?就是在训练最开始的时候,先使用一个小的学习率训练,当训练稳定下来后,再换回原来设定的学习率。
imagefacebook则提出一种预热策略,就是从0到设定学习率之间采用线性关系形式。
m个batches是用来warmup的,我们设置的初始lr为η,那么当第i(1≤i≤m)个batch时,lr为i×η /m。
Zero γ 零γ初始化
这一技巧是针对resne所提出,也是Facebook的成果。
image
我们首先回顾一下resnet的结构。我们知道resnet网络由多个残差块组成,每个残差块由几个卷积网络组成。给定输入x,假设block(x)是块中最后一层的输出,则该残余块输出block(x)+x。
imageblock块中的最后一层就是一个BN层,具体操作如下:1.求均值。2.求方差。3.归一化。4.缩放和偏移。
第4步将normalize后的数据再扩展和平移。是为了让神经网络自己去学着使用和修改这个扩展参数γ,和平移参数β, 这样神经网络就能自己慢慢琢磨出前面的normalization操作到底有没有起到优化的作用, 如果没有起到作用, 就使用γ和β来抵消一些normalization的操作。
image其中,γ和β都是可训练的参数。通常的做法是在初始化时,将β设为0,但是作者提出在初始化时可以将γ也设为0,也就是上图中的block在初始化时输出为0。这样一来,输出就只有shortcut结构的输出了,也即输出等于输入。
这样的好处:将所有残差块中的最后一个BN中的初始化设置成0,也即残差块的输出等于输入,相当于 模型的网络层数较少, 可以使得模型在初始化阶段更容易训练。
imageNo bias decay 无偏置衰减
这一技巧来自腾讯机智团队。
imageWeight Decay是用来解决过拟合问题。 但是一般来说,会对可学习的参数如 weight 和 bias 都会做 decay,通常的做法是使用L2正则化来做。机智团队提出只对卷积层和全连接层的weight做L2中正则化,不对bias,BN层的γ和β进行正则化衰减。
题外话
说个题外话:大家看到之前的几篇文章的标题,很是唬人。什么1小时训练完ImageNet、4分钟训练完ImageNet。那么问题来了,目前最快训练完ImageNet的是谁?
image截止到2019年3月,最快训练完ImageNet的是日本公司Fujitsu。值得注意的一点是使用的也是MXNet框架。 在 MXNet 中将很多的 tricks 默认嵌入到了框架之中。这次的训练也采用了很多的这篇文章所提到的一些技巧:
0.大batch size
1.由于更新数量较小,研究人员需要采用较高的学习率来加速训练。但是,较高的学习率会导致模型在早期阶段训练不稳定。因此,研究人员采用能够逐步提升学习率的预热技术来稳定(SGD。)
2.之后会提到的标签平滑(label smoothing)
Low-precision training 低精度训练
首先是三种精度的介绍和比较。 神经网络的训练常常使用 32 位 float 类型( FP32 )对所有的数据和参数进行 存储和计算。
image从TegraX1开始, NVIDIA 的 GPU 将支持原生的 FP16 计算指令,理论上可以获得两倍于FP32的性能,适用于大规模的神经网络或者计算机视觉相关的应用。而从 CUDA 7.5 开始,开发者可以很容易的 直接使用内置的half以及half2 将原有的 FP32 的代码移植为 FP16。
image最近几年,nvidia为了加速训练过程,在最新的架构中还增加了特殊的fp16矩阵运算(逻辑)单元,专门用于较低精度的数据类型。2017年5月11日发布的英伟达特斯拉V100,增加了特殊的fp16矩阵运算(逻辑)单元,专门用于较低精度的数据类型。使得新的计算设备提供了低精度的16位float类型(FP16)的计算能力,于是就有了拿FP16来进行计算的方式。
image于是有人提出能不能全部使用FP16来进行网络的训练,可以是可以,虽然会让训练速度提升,但是结果的精度也会下降呀。
image百度研究院提出混合精度训练。
image在整个训练过程中,用FP16来存储参数、计算梯度,同时留一个32位精度的参数的备份,用于更新参数。
image在V100上从FP32切换到FP16后,整体训练速度加快了2到3倍。
结果
以上五种做法对实验结果的影响如下:
image可以看到Zero γ这个技巧是提升比较大的。
本篇文章主要介绍了论文的概要,大批量训练的一些tricks以及快速训练所使用的低精度训练方法。第二三篇将介绍模型微调,训练调整等技巧。
参考文献
论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks
[深度学习] Image Classification图像分类之Bag of Tricks for Image Classification with Convolutional Neural Net
Amazon深度学习工程师总结的分类模型炼丹技巧总结
Accurate, large minibatch SGD: training imagenet in 1 hour
Deep residual learn ing for image recognition
Highly scalable deep learning training system with mixed-precision: Training imagenet in four minutes
Mixed precision training
网友评论