《TEA: Temporal Excitation and Ag

作者: ce0b74704937 | 来源:发表于2021-06-07 08:29 被阅读0次

《TEA: Temporal Excitation and Ag
Chapter 6
nature_photonics review
卷积模块设计整理(SENet,SKNet,Non-Local N
2019-07-07
【CV中的Attention机制】最简单最易实现的SE模块
SE-Net学习笔记
Pu'er tea
SENet在MXNet下的实现（部分代码）
senet论文笔记

文章地址：《TEA: Temporal Excitation and Aggregation for Action Recognition》

代码地址：暂无

该文章发表于CVPR2020，文章认为对于视频动作识别需要将视频的short-range信息和long-range信息都利用起来。所以文章提出了两个模块，motion excitation (ME) module用来提取short-range信息， multiple temporal aggregation (MTA) module用来提取long-range信息。

一、网络结构

网络结构如下图所示

1.png

对于一个输入视频，首先将视频等分为T份，然后从每一份中随机抽取一帧，将抽取出的T帧作为网络的输入。文章的模型是基于2D CNN ResNet改进的，改进方法就是加入ME和MTA来构成 Temporal Excitation and Aggregation(TEA) block。

ME和MTA的结构如下图所示

2.png

1.1 motion excitation (ME) module

文章认为特征的不同通道获取到了不同的信息，比如一部分通道用来学习背景信息，其它通道学习动态的运动信息，而ME模块就是为了发现并加强学习动态运动信息的通道。

如上图所示，ME的输入为X，其维度为 $[N,T,C,H,W]$ ，N表示batch size，T表示时间维度，C表示特征通道维度，H、W分别为特征的空间维度。

首先X经过一个 $1\times 1$ 的2D卷积来减少通道数，提高计算效率。

$X^r=conv_{red}*X, X^r\in R^{N\times T\times C/r \times H \times W}$

其中 $X^r$ 表示卷积输出的特征，*表示卷积操作， $r=16$ 表示减少的通道数。

接下来要估计计算t时刻两个相邻帧之间的差别，差别的体现不是直接采用原始特征相减，而是经过一个channel-wise transformation然后在进行做差操作，公式表示为

$M(t)=conv_{trans}*X^r(t+1)-X^r(t),1\leq t\leq T-1$

其中， $M(t)\in R^{N\times C/r\times H\times W}$ 是t时刻的运动特征。 $conv_{trans}$ 是一个 $3\times 3$ 的2D channel-wise卷积。

这里还需要注意，上述做差操作，在T时刻是没有的，这里定义 $M(T)=0$ ，这样将上述所有的差值进行从concatenate得到所有的运动特征 $[M(1), ..., M(T)]$ 。

接着将上述特征输入空间的global average pooling层

$M^s=Pool(M), M^s\in R^{N\times T\times C/r\times 1 \times 1}$

再接着 $M^s$ 通过一个 $1\times 1$ 的2D卷积 $conv_{exp}$ 将特征的通道数还原为C，再送入sigmoid function，从而得到了一个motion-attentive权重A。

$A=2\delta(conv_{exp}*M^s)-1, A\in R^{N\times T\times C\times 1\times 1}$

其中 $\delta$ 表示sigmoid操作。

因为ME模块最终的目的是加强运动信息通道的特征，简单的做法就是利用A与X相乘，然而这样直接相乘可能会影响模块对背景提取的能力，为了解决这个问题，文章采用了residual的方式，在增强运动信息的同时保留原始信息。公式表示如下：

$X^o=X+X\odot A, X^o\in R^{N\times T\times C\times H\times W}$

$X^o$ 是ME模块最终的输出， $\odot$ 表示channel-wise的乘积。

这一系列操作很像SEnet中的attention操作，文章讨论了与SE的几点不同：

ME模块是针对视频提出来的，SE是针对图片任务
SE是为了增强特征中通道信息，ME是为了增强motion-sensitive信息
SE会抑制一些无用的通道，但ME会通过residual结构保留静态的背景信息

可以看出通过利用相邻两帧特征的差别，来获取motion-sensitive attention信息，这样ME就可以很好的加强了short-range信息。

1.2 multiple temporal aggregation (MTA)

MTA结构类似于Res2net，模块输入为X，然后将X在通道维度划分为4部分，每一部分的维度为 $[N,T,C/4,H,W]$ 。

MTA模块用公式表示如下：
$X^o_i=X_i, \quad i=1,$

$X^o_i=conv_{spa}*(conv_{temp}*X_i), \quad i=2,$

$X^o_i=conv_{spa}*(conv_{temp}*(X_i+X_{i-1})), \quad i=3,4,$

其中 $X^o_i\in R^{N\times T\times C/4 \times H\times W}$ 表示每部分的输出， $conv_{temp}$ 表示kernel size为3的1D channel-wise时序卷积， $conv_{spa}$ 表示 $3\times 3$ 2D空间卷积。

MTA模块最终的输入为几个部分输出的concatenate结果

$X^o=[X^o_1;X^o_2;X^o_3;X^o_4], X^o\in R^{N\times T\times C\times H\times W}$

可以看出MTA每个部分的感受野是不一样的，文章认为这种结构比强行堆叠多个卷积操作效果要好且计算更高效。

1.3 将ME与MTA整合进resnet block

整合方式如下图所示

3.png

《TEA: Temporal Excitation and Ag
文章地址：《TEA: Temporal Excitation and Aggregation for Action...
Chapter 6
Chapter 6: Temporal-Difference Learning Temporal-differen...
nature_photonics review
Swept confocally-aligned planar excitation (SCAPE) micros...
卷积模块设计整理(SENet,SKNet,Non-Local N
SENet Squeeze-and-Excitation Networks (SENet) ，CVPR2017 ...
2019-07-07
[WWW 2019] Self- and Cross-Excitation in Stack Exchange Q...
【CV中的Attention机制】最简单最易实现的SE模块
1. Squeeze-and-Excitation Network SENet是Squeeze-and-Excit...
SE-Net学习笔记
Squeeze-and-Excitation Networks（简称SENet） Squeeze：空间维度来进行...
Pu'er tea
Pu'er tea is also called antique tea General Pu'er tea is...
SENet在MXNet下的实现（部分代码）
Squeeze-and-Excitation Networks （SENet）获得了2017年ImageNet的分...
senet论文笔记
参考文章：解读Squeeze-and-Excitation Networks（SENet）SENet学习笔记Sq...