URL:
https://arxiv.org/pdf/1812.01187.pdf
TL;DR
一系列的训练tricks。large batch、Low-precision、Label Smoothing、Cosine Learning Rate Decay、Knowledge Distillation和Mixup Training等。
方法
方法没什么具体可讲解的,主要是介绍了上述一系列的训练tricks。
加trick vs 不加trick的实验。
加trick vs 不加trick的实验各个trick带来的影响。有些奇怪的是batchsize变大时掉点,而低精度训练却涨点。
各个trick带来的影响
第二批tricks带来的影响。基本是均有所涨点。但蒸馏和mixup的混用在不同模型上效果不同。
第二批tricks带来的影响
这些trick不仅对识别任务有效,部分trick在检测、分割等任务上也有效。但并不是所有trick都有效,具体可以看论文中的实验。
网友评论