【网络架构】Interleaved Group Convolut

作者: EverydayRunning | 来源:发表于2019-06-17 18:54 被阅读0次

【网络架构】Interleaved Group Convolut
The Open Group发布《The Open Group
TOGAF基础（bat面试整理）
莫尔纹
图像分类训练技巧包（二）
图像分类训练技巧包（一）
图像分类训练技巧包（三）
企业架构需要统一标准
CNN (Convolutional Neural Networ
Term 1 Welcome & Anaconda

主要贡献

提出了新的网络单元interleaved group convolution，有助于提高参数优化和计算；
在保持网络大小和计算复杂度的情况下，提出的网络单元相比传统的组卷积具有更宽的宽度，也就具有更先进的表现；
讨论了和传统卷积（Xception和具有总结融合的组卷积）的联系，显示它们只是文中单元的特例。

文中的网络结构

Interleaved Group Convolutions

定义

文中提出的网络单元基于组卷积，也就是将输入通道分成好几个分区，并在每一个分区上分别进行常规卷积。组卷积可以看成是具有稀疏模块的对角卷积核的常规卷积。每个稀疏模块对应通道部分，各个分区之间没有联系。
Interleaved group convolutions包括两级组卷积，一级组卷积和二级组卷积。图1显示了一个例子。我们使用第一级来处理空间相关性，并且使用在state-of-the-art中广泛采用的空间卷积核，比如 $3 \times 3$ 。卷积核在每个分区上分别进行卷积。使用第二级组卷积对第一级组卷积不同分区的输出进行混合，使用 $1 \times 1$ 的卷积核。

图1.PNG

一级组卷积

一级组卷积的分区个数设为 $L$ ，每个分区包含相同的通道数 $M$ ,第一级的组卷积为：
$\left[\begin{array}{ccc} \boldsymbol y_1\\\boldsymbol y_2\\:\\\boldsymbol y_L \end{array}\right]= \left[\begin{array}{ccc} \boldsymbol W_{11}^p&\boldsymbol 0&\boldsymbol 0&\boldsymbol 0\\\boldsymbol 0&\boldsymbol W_{22}^p&\boldsymbol 0&\boldsymbol 0\\:&:&:&:\\\boldsymbol 0&\boldsymbol 0&\boldsymbol 0&\boldsymbol W_{LL}^p \end{array}\right]\left [\begin{array}{ccc} \boldsymbol z_1\\\boldsymbol z_2\\:\\\boldsymbol z_L \end{array}\right]$
$\boldsymbol z_l$ 是 $MS$ 维向量， $S$ 是卷积核的尺寸， $3 \times 3$ 的卷积核的尺寸为 $9$ 。它是由该分区中所有通道围绕该空间位置的S个响应形成的（例如， $3\times 3$ ）。 $\boldsymbol W_{ll}^p$ 第 $l$ 分区的卷积核，其大小为 $M \times (MS)$ 。 $X=[\boldsymbol Z_1^{\text T},\boldsymbol Z_2^{\text T},...,\boldsymbol Z_L^{\text T}]^{\text T}$ 代表一级组卷积的输入。

二级组卷积

我们的方法对一级组卷积的输出通道 $\{{\boldsymbol y_1,\boldsymbol y_2,...,\boldsymbol y_L} \}$ 进行了排列,使每个分区的 $L$ 个通道输入到二级组卷积的 $M$ 个分区，使得相同二级分区的通道来自于不同的一级分区。二级分区的组成非常简单，第 $m$ 个二级分区由每个一级分区的第 $m$ 个输出组成。
$\overline{\boldsymbol{y}}=[y_{1m},y_{2m},...,y_{Lm}]^{\text T}=\boldsymbol{P_m^{\text T}y},\overline{\boldsymbol y}=\boldsymbol{P^{\text T}y}$
$\overline{\boldsymbol{y}}$ 对应第 $m$ 个二级分区， $y_{lm}$ 是 $\boldsymbol y_l$ 的第 $m$ 个元素， $\overline{\boldsymbol y}=[\overline{\boldsymbol y}^{\text T}_1,\overline{\boldsymbol y}^{\text T}_2,...,\overline{\boldsymbol y}^{\text T}_M ]^{\text T}$ ， $\boldsymbol y=[\boldsymbol y^{\text T}_1\boldsymbol y^{\text T}_2,...,\boldsymbol y^{\text T}_L ]^{\text T}$ ， $\boldsymbol P$ 是排列矩阵， $\boldsymbol P = [\boldsymbol P_1,\boldsymbol P_2,...,\boldsymbol P_M]$ 。
二级组卷积是在 $M$ 个二级分区上进行的。
$\overline{\boldsymbol z}_m=\boldsymbol W_{mm}^d\overline{\boldsymbol y}_m$
$\boldsymbol W_{mm}^d$ 对应第 $m$ 个二级分区的 $1\times1$ 的卷积核，是尺寸为 $L\times L$ 的矩阵。二级组卷积的输出通道被重新排列回之前的形式，进而输入到下一级 Interleaved Group Convolutions单元中去。 $L$ 个回排列分区 $\{{\boldsymbol x'_1,\boldsymbol x'_2,...,\boldsymbol x'_L}\}$ 的计算过程如下，
$\boldsymbol x'_l= [\overline z_{1l},\overline z_{2l},...,\overline z_{Ml}]^{\text T}, \boldsymbol x'=\boldsymbol {P\overline z}$ 其中 $\overline {\boldsymbol z} = [\overline {\boldsymbol z}_1^{\text T} ,\overline {\boldsymbol z} _2^{\text T} ,...,\overline {\boldsymbol z} _M^{\text T} ]$
综上所述，interleaved group convolution block的公式如下，
$\boldsymbol x'=\boldsymbol{PW}^d\boldsymbol{P}^{\text T}\boldsymbol{W}^p\boldsymbol{x}$
其中， $\boldsymbol{W}^d$ 和 $\boldsymbol{W}^p$ 是对角阵， $\boldsymbol{W}^d=\text{diag}(\boldsymbol{W}^d_{11},\boldsymbol{W}^d_{22},...,\boldsymbol{W}^d_{MM})$ ， $\boldsymbol{W}^p=\text{diag}(\boldsymbol{W}^p_{11},\boldsymbol{W}^p_{22},...,\boldsymbol{W}^p_{LL})$
令 $\boldsymbol W=\boldsymbol{PW}^d\boldsymbol{P}^{\text T}\boldsymbol{W}^p$ 为复合卷积核，那么
$\boldsymbol x' =\boldsymbol W \boldsymbol x$
这就表示，IGC单元等效于卷积核是两个稀疏核乘积的常规卷积。

分析

比常规卷积更宽

一级组卷积的大小是 $S$ ,二级组卷积的大小是 $1(=1\times1)$ 。只考虑一个空间点，一个IGC单元里的参数个数(如果特征图的大小固定，等同于计算复杂度)为：
$T_{igc}=L \times M \times M \times S + M \times L \times L=G^2\times (S/L+1/M)$
其中， $G=ML$ 是IGC单元的宽度，也就是通道数。
对于核尺寸同样为 $S$ ，输入和输出宽度为 $C$ 的常规卷积来说，参数个数是
$T_{rc}=C\times C \times S$
假设参数个数相同， $T_{igc}=T_{rc}=T$ ，那么， $C^2=\frac{T}{S}$ ， $G^2=\frac{T}{S/L+1/M}$ 。易得，
当 $\frac{L}{L-1}<MS$ 时， $G>C$
考虑到典型状况下 $S=3\times3=9$ ，那么，当 $L>1$ 时，就有 $G>C$ 。也就是说，除了 $L=1$ 这样的极端情况时，IGC比常规卷积更宽。

什么情况下最宽

$\begin{split}T_{igc}&=L \times M \times M \times S + M \times L \times L\\&=LM(MS+L)\\&\ge LM \sqrt{2MSL}\\&= 2 \sqrt S (LM)^{ \frac{3}{2}}\\&=2 \sqrt S G^{\frac{3}{2} } \end{split}$
当 $L=MS$ 时，等式成立。这就意味着，给定参数个数，宽度 $G$ 有上界， $G \le (\frac{T_{igc}}{2 \sqrt S})^{\frac{3}{2}}$ 。当且仅当 $L=MS$ 时，宽度最宽。

越宽性能越好吗

给定参数个数意味着如下的约束，
$||W^p||_0+||W^d||_0=T$
$||.||_0$ 表示一个矩阵的 $l_0$ 范数。这一等式意味着当IGC更宽时(或者输入的维数更高时)， $\boldsymbol{W}^p$ 和 $\boldsymbol{W}^d$ 更大也更稀疏。换句话说，复合卷积核 $\boldsymbol{W}$ 变大时约束更多。因此，增加宽度并不一定能提高性能。

【网络架构】Interleaved Group Convolut
主要贡献提出了新的网络单元interleaved group convolution，有助于提高参数优化和计算；...
The Open Group发布《The Open Group
The Open Group正式发布了《The Open Group 敏捷架构框架™ 标准草案》，该标准是 The...
TOGAF基础（bat面试整理）
概述 TOGAF是一个架构框架，即开放群组架构框架（The Open Group Architecture Fra...
莫尔纹
论文
图像分类训练技巧包（二）
论文名： Bag of Tricks for Image Classification with Convolut...
图像分类训练技巧包（一）
论文名： Bag of Tricks for Image Classification with Convolut...
图像分类训练技巧包（三）
论文名： Bag of Tricks for Image Classification with Convolut...
企业架构需要统一标准
企业架构简称EA（Enterprise Architecture），国际标准权威组织The Open Group ...
CNN (Convolutional Neural Networ
1. What is CNN ImageNet Classification with Deep Convolut...
Term 1 Welcome & Anaconda
· Convolutional Neural Network【neutral:中立的、非颜色的; convolut...

【网络架构】Interleaved Group Convolut

主要贡献

文中的网络结构

Interleaved Group Convolutions

定义

一级组卷积

二级组卷积

分析

比常规卷积更宽

什么情况下最宽

越宽性能越好吗

相关文章

【网络架构】Interleaved Group Convolut

The Open Group发布《The Open Group

TOGAF基础（bat面试整理）

莫尔纹

图像分类训练技巧包（二）

图像分类训练技巧包（一）

图像分类训练技巧包（三）

企业架构需要统一标准

CNN (Convolutional Neural Networ

Term 1 Welcome & Anaconda

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读