轻量级网络ShuffleNet v1

作者: 有事没事扯扯淡 | 来源:发表于2019-01-10 14:50 被阅读0次

轻量级网络之ShuffleNet
轻量级网络ShuffleNet v1
ShuffleNet V1/V2 | 轻量级深层神经网络
轻量级网络之ShuffleNet v2
网络学习系列（十）shufflenet
轻量级网络：ShuffleNet系列
2.5 ShuffleNet V2思考
轻量级网络 ShuffleNet_v1及v2
小型CNN总结：ShuffleNet、MobileNet v1,
2.4 ShuffleNet V1思考

ShuffleNet是旷视科技提出的一种计算高效的CNN模型，其和MobileNet和SqueezeNet等一样主要是想应用在移动端。所以，ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度，这需要很好地在速度和精度之间做平衡。ShuffleNet的核心是采用了两种操作：pointwise group convolution和channel shuffle，这在保持精度的同时大大降低了模型的计算量。目前移动端CNN模型主要设计思路主要是两个方面：模型结构设计和模型压缩。ShuffleNet和MobileNet一样属于前者，都是通过设计更高效的网络结构来实现模型变小和变快，而不是对一个训练好的大模型做压缩或者迁移。

Group convolution

谈论起MoblieNet／ShuffleNet这些网络结构，就绕不开Group convolution，甚至可以认为这些网络结构只是Group convolution的变形而已。那么什么是Group convolution？

convolution

假设有输入feature map，尺寸为 $H$ x $W$ x $C$ ，同时有 $k$ 个 $h$ x $w$ 卷积核。对于一般卷积，输出feature map尺寸为 $H'$ x $W'$ x $k$ （这里不关心 $H'$ 和 $W'$ ）。

Group convolution（group=2)

而Group convolution的实质就是将convolution分为 $g$ 个独立的组，分别计算。即：

把input feature分为 $g$ 组，每组的大小为 $H$ x $W$ x $(C/g)$ (假设可以整除，下同)
把kernel也分为 $g$ 组，每组大小 $h$ x $w$ x $(k/g)$
按顺序，每组input feature和kernel分别做普通卷积，输出 $g$ 组 $H'$ x $W'$ x $k/g$ ，一共 $H'$ x $W'$ x $k$

ResNet bottlenect结构

这里简单介绍一下ResNet的bottleneck网络结构。注意Channel维度变化： 256D>>64D>>256D ，宛如一个中间细两端粗的瓶颈，所以称为“bottleneck”。这种结构相比VGG，早已经被证明是非常效的，能够更好的提取图像特征。

下图展示了ShuffleNet的结构，其中(a)就是加入Depthwise的ResNet bottleneck结构，而(b)和(c)是加入Group convolution和Channel Shuffle的ShuffleNet的结构。

ShuffleNet的基本单元是在一个残差单元的基础上改进而成的。如图a所示，这是一个包含3层的残差单元：首先是1x1卷积，然后是3x3的depthwise convolution（DWConv，主要是为了降低计算量），这里的3x3卷积是瓶颈层（bottleneck），紧接着是1x1卷积，最后是一个短路连接，将输入直接加到输出上。现在，进行如下的改进：将密集的1x1卷积替换成1x1的group convolution，不过在第一个1x1卷积之后增加了一个channel shuffle操作。值得注意的是3x3卷积后面没有增加channel shuffle，按paper的意思，对于这样一个残差单元，一个channel shuffle操作是足够了。还有就是3x3的depthwise convolution之后没有使用ReLU激活函数。改进之后如图b所示。对于残差单元，如果stride=1时，此时输入与输出shape一致可以直接相加，而当stride=2时，通道数增加，而特征图大小减小，此时输入与输出不匹配。一般情况下可以采用一个1x1卷积将输入映射成和输出一样的shape。但是在ShuffleNet中，却采用了不一样的策略，如图c所示：对原输入采用stride=2的3x3 avg pool，这样得到和输出一样大小的特征图，然后将得到特征图与输出进行连接（concat），而不是相加。这样做的目的主要是降低计算量与参数大小。

那么ShuffleNet为何要这样做？既然是轻量化网络，我们还是来算算计算量。
假设输入feature为 $H$ x $W$ x $C$ ，所有的 $1$ x $1$ 卷积数为 $C$ ， $3$ x $3$ Depthwise卷积数为 $k$ ，Group convolution都分为 $g$ ， (a)和(b)的网络乘法计算量：

a) ResNet bottleneck： $HW(2Ck+9)$
b) ShuffleNet stride=1结构： $HW(2Ck+9)$ + $shufflecost$

相比原始加入Depthwise的ResNet缩小了很多的计算量。所以ShuffleNet相当于保留ResNet结构，同时又压低计算量的改进版。这里解释下为何要做Channel Shuffle操作：

ShuffleNet的本质是将卷积运算限制在每个Group内，这样模型的计算量取得了显著的下降。然而导致模型的信息流限制在各个Group内，组与组之间没有信息交换，如图15，这会影响模型的表示能力。因此，需要引入组间信息交换的机制，即Channel Shuffle操作。同时Channel Shuffle是可导的，可以实现end-to-end一次性训练网络。

group convolution存在一个弊端，如图a所示，其中GConv是group convolution，这里分组数是3。可以看到当堆积GConv层后一个问题是不同组之间的特征图是不通信的，这就好像分了三个互不相干的路，大家各走各的，这目测会降低网络的特征提取能力。这样你也可以理解为什么Xception，MobileNet等网络采用密集的 $1$ x $1$ 卷积，因为要保证group convolution之后不同组的特征图之间的信息交流。但是达到上面那个目的，我们不一定非要采用dense pointwise convolution。

如图b所示，你可以对group convolution之后的特征图进行“重组”，这样可以保证接下了采用的group convolution其输入来自不同的组，因此信息可以在不同组之间流转。这个操作等价于图c，即group convolution之后对channels进行shuffle，但并不是随机的，其实是“均匀地打乱”。在程序上实现channel shuffle是非常容易的：假定将输入层分为 $g$ 组，总通道数为 $g$ x $n$ ，首先你将通道那个维度拆分为 $(g,n)$ 两个维度，然后将这两个维度转置变成 $(n,g)$ ，最后重新reshape成一个维度。如果你不太理解这个操作，你可以试着动手去试一下，发现仅需要简单的维度操作和转置就可以实现均匀的shuffle。利用channel shuffle就可以充分发挥group convolution的优点，而避免其缺点。

当然，ShuffleNet有2个重要缺点：

Shuffle channel在实现的时候需要大量的指针跳转和Memory set，这本身就是极其耗时的；同时又特别依赖实现细节，导致实际运行速度不会那么理想。

Shuffle channel规则是人工设计出来的，不是网络自己学出来的。这不符合网络通过负反馈自动学习特征的基本原则，又陷入人工设计特征的老路（如sift/HOG等）。

参考链接
轻量化网络ShuffleNet MobileNet v1/v2 解析
 CNN模型之ShuffleNet

轻量级网络之ShuffleNet
轻量级网络之ShuffleNet 原论文——ShuffleNet: An Extremely Efficient ...
轻量级网络ShuffleNet v1
ShuffleNet paper ShuffleNet是旷视科技提出的一种计算高效的CNN模型，其和MobileN...
ShuffleNet V1/V2 | 轻量级深层神经网络
1.简介 ShuffleNet V1是Face++于2017年提出的轻量级深层神经网络。作者在2018年又提出了基...
轻量级网络之ShuffleNet v2
轻量级网络之ShuffleNet v2 原论文——ShuffleNet V2: Practical Guideli...
网络学习系列（十）shufflenet
shufflenet v1 要解决的问题：论文追求的也是轻量化的网络，作者发现，无论是xception网络还是r...
轻量级网络：ShuffleNet系列
ShuffleNet V1 创新点：1、pointwise group convolution 2、channel...
2.5 ShuffleNet V2思考
一看名字，就知道是对ShuffleNet V1的优化改进。 1 ShuffleNet V2设计思想问题：间接指...
轻量级网络 ShuffleNet_v1及v2
参考资料：『高性能模型』轻量级网络ShuffleNet_v1及v2[https://www.cnblogs.co...
小型CNN总结：ShuffleNet、MobileNet v1,
推荐的文章包括： ShuffleNet，mobilenet v1,v2，Xception Xception、Mob...
2.4 ShuffleNet V1思考
1 ShuffleNet的思想 ShuffleNet使用Group convolution和Channel shu...