ECCV2018|ShuffleNetV2：轻量级CNN网络中的

作者: 有事没事扯扯淡 | 来源:发表于2019-01-11 09:04 被阅读0次

近来，深度CNN网络如ResNet和DenseNet，已经极大地提高了图像分类的准确度。但是除了准确度外，计算复杂度也是CNN网络要考虑的重要指标，过复杂的网络可能速度很慢，一些特定场景如无人车领域需要低延迟。另外移动端设备也需要既准确又快的小模型。为了满足这些需求，一些轻量级的CNN网络如MobileNet和ShuffleNet被提出，它们在速度和准确度之间做了很好地平衡。今天我们要讲的是ShuffleNetv2，它是旷视最近提出的ShuffleNet升级版本，并被ECCV2018收录。在同等复杂度下，ShuffleNetv2比ShuffleNet和MobileNetv2更准确。

设计理念

目前衡量模型复杂度的一个通用指标是FLOPs，具体指的是multiply-add数量，但是这却是一个间接指标，因为它不完全等同于速度。相同FLOPs的两个模型，其速度却存在差异。这种不一致主要归结为两个原因，首先影响速度的不仅仅是FLOPs，如内存使用量（memory access cost, MAC），这不能忽略，对于GPUs来说可能会是瓶颈。另外模型的并行程度也影响速度，并行度高的模型速度相对更快。另外一个原因，模型在不同平台上的运行速度是有差异的，如GPU和ARM，而且采用不同的库也会有影响。

据此，作者在特定的平台下研究ShuffleNetv1和MobileNetv2的运行时间，并结合理论与实验得到了4条实用的指导原则：

1. 同等通道大小最小化内存访问量
对于轻量级CNN网络，常采用深度可分割卷积（depthwise separable convolutions），其中点卷积（ pointwise convolution）即1x1卷积复杂度最大。这里假定输入和输出特征的通道数分别为 $c_1$ 和 $c_2$ ，特征图的空间大小为 $h \times w$ ，那么1x1卷积的FLOPs为 $B=hwc_1c_2$ 。对应的MAC为 $hw(c_1+c_2)+c_1c_2$ （这里假定内存足够），根据均值不等式，固定 $B$ 时，MAC存在下限（令 $c_2=B/hwc_1$ )

$MAC_ \geqslant 2\sqrt {hwB} + \frac{B}{{hw}}$

仅当 $c_1=c_2$ 时，MAC取最小值，这个理论分析也通过实验得到证实，如表1所示，通道比为1:1时速度更快。

2. 过量使用组卷积会增加MAC
组卷积（group convolution）是常用的设计组件，因为它可以减少复杂度却不损失模型容量。但是这里发现，分组过多会增加MAC。对于组卷积，FLOPs为 $B=hwc_1c_2/g$ (其中 $g$ 是组数)，而对应的MAC为 $hw(c_1+c_2)+c_1c_2/g$ 。如果固定输入 $c_1 \times h \times w$ 以及 $B$ ，那么MAC为：

$MAC = hw{c_1} + Bg/{c_1} + B/hw$

可以看到，当 $g$ 增加时，MAC会同时增加。这点也通过实验证实，所以明智之举是不要使用太大 $g$ 的组卷积。

3. 网络碎片化会降低并行度
网络结构设计上，文章用了一个词：fragment，翻译过来就是分裂的意思，可以简单理解为网络的支路数量。一些网络如Inception，以及Auto ML自动产生的网络NASNET-A，它们倾向于采用“多路”结构，即存在一个lock中很多不同的小卷积或者pooling，这很容易造成网络碎片化，减低模型的并行度，相应速度会慢，这也可以通过实验得到证明。

为了研究fragment对模型速度的影响，作者做了Table3这个实验，其中2-fragment-series表示一个block中有2个卷积层串行，也就是简单的叠加；4-fragment-parallel表示一个block中有4个卷积层并行，类似Inception的整体设计。可以看出在相同FLOPs的情况下，单卷积层（1-fragment）的速度最快。因此模型支路越多（fragment程度越高）对于并行计算越不利，这样带来的影响就是模型速度变慢。

4. 不能忽略元素级操作
对于元素级（element-wise operators）比如ReLU和Add，虽然它们的FLOPs较小，但是却需要较大的MAC。element-wise类型操作虽然FLOPs非常低，但是带来的时间消耗还是非常明显的。比如在Figure2中，作者对ShuffleNet v1和MobileNet v2的几种层操作的时间消耗做了分析，常用的FLOPs指标其实主要表示的是卷积层的操作，而element-wise操作虽然基本上不增加FLOPs，但是所带来的时间消耗占比却不可忽视。

因此作者做了Table4的实验，Table4的实验是基于ResNet的bottleneck进行的，short-cut其实表示的就是element-wise操作。这里作者也将depthwise convolution归为element-wise操作，因为depthwise convolution也具有低FLOPs、高MAC的特点。这里实验发现如果将ResNet中残差单元中的ReLU和shortcut移除的话，速度有20%的提升。

上面4条指导准则总结如下：

1x1卷积进行平衡输入和输出的通道大小；

组卷积要谨慎使用，注意分组数；

避免网络的碎片化；

减少元素级运算。

网络结构

shuffleNet版本对比

在ShuffleNetv1的模块中，大量使用了1x1组卷积，这违背了原则2，另外v1采用了类似ResNet中的瓶颈层（bottleneck layer），输入和输出通道数不同，这违背了原则1。同时使用过多的组，也违背了原则3。短路连接中存在大量的元素级Add运算，这违背了原则4。

为了改善v1的缺陷，v2版本引入了一种新的运算：channel split。具体来说，在开始时先将输入特征图在通道维度分成两个分支：通道数分别为 $c'$ 和 $c-c'$ ，实际实现时 $c'=c/2$ 。左边分支做同等映射，右边的分支包含3个连续的卷积，并且输入和输出通道相同，这符合原则1。而且两个1x1卷积不再是组卷积，这符合原则2，另外两个分支相当于已经分成两组。两个分支的输出不再是Add元素，而是concat在一起，紧接着是对两个分支concat结果进行channle shuffle，以保证两个分支信息交流。其实concat和channel shuffle可以和下一个模块单元的channel split合成一个元素级运算，这符合原则原则4。