文章地址:《TEA: Temporal Excitation and Aggregation for Action Recognition》
代码地址:暂无
该文章发表于CVPR2020,文章认为对于视频动作识别需要将视频的short-range信息和long-range信息都利用起来。所以文章提出了两个模块,motion excitation (ME) module用来提取short-range信息, multiple temporal aggregation (MTA) module用来提取long-range信息。
一、网络结构
网络结构如下图所示
1.png对于一个输入视频,首先将视频等分为T份,然后从每一份中随机抽取一帧,将抽取出的T帧作为网络的输入。文章的模型是基于2D CNN ResNet改进的,改进方法就是加入ME和MTA来构成 Temporal Excitation and Aggregation(TEA) block。
ME和MTA的结构如下图所示
2.png1.1 motion excitation (ME) module
文章认为特征的不同通道获取到了不同的信息,比如一部分通道用来学习背景信息,其它通道学习动态的运动信息,而ME模块就是为了发现并加强学习动态运动信息的通道。
如上图所示,ME的输入为X,其维度为,N表示batch size,T表示时间维度,C表示特征通道维度,H、W分别为特征的空间维度。
首先X经过一个的2D卷积来减少通道数,提高计算效率。
其中表示卷积输出的特征,*表示卷积操作,表示减少的通道数。
接下来要估计计算t时刻两个相邻帧之间的差别,差别的体现不是直接采用原始特征相减,而是经过一个channel-wise transformation然后在进行做差操作,公式表示为
其中,是t时刻的运动特征。是一个的2D channel-wise卷积。
这里还需要注意,上述做差操作,在T时刻是没有的,这里定义,这样将上述所有的差值进行从concatenate得到所有的运动特征。
接着将上述特征输入空间的global average pooling层
再接着通过一个的2D卷积将特征的通道数还原为C,再送入sigmoid function,从而得到了一个motion-attentive权重A。
其中表示sigmoid操作。
因为ME模块最终的目的是加强运动信息通道的特征,简单的做法就是利用A与X相乘,然而这样直接相乘可能会影响模块对背景提取的能力,为了解决这个问题,文章采用了residual的方式,在增强运动信息的同时保留原始信息。公式表示如下:
是ME模块最终的输出,表示channel-wise的乘积。
这一系列操作很像SEnet中的attention操作,文章讨论了与SE的几点不同:
- ME模块是针对视频提出来的,SE是针对图片任务
- SE是为了增强特征中通道信息,ME是为了增强motion-sensitive信息
- SE会抑制一些无用的通道,但ME会通过residual结构保留静态的背景信息
可以看出通过利用相邻两帧特征的差别,来获取motion-sensitive attention信息,这样ME就可以很好的加强了short-range信息。
1.2 multiple temporal aggregation (MTA)
MTA结构类似于Res2net,模块输入为X,然后将X在通道维度划分为4部分,每一部分的维度为。
MTA模块用公式表示如下:
其中表示每部分的输出,表示kernel size为3的1D channel-wise时序卷积,表示 2D空间卷积。
MTA模块最终的输入为几个部分输出的concatenate结果
可以看出MTA每个部分的感受野是不一样的,文章认为这种结构比强行堆叠多个卷积操作效果要好且计算更高效。
1.3 将ME与MTA整合进resnet block
整合方式如下图所示
3.png
网友评论