美文网首页
《TEA: Temporal Excitation and Ag

《TEA: Temporal Excitation and Ag

作者: ce0b74704937 | 来源:发表于2021-06-07 08:29 被阅读0次

    文章地址:《TEA: Temporal Excitation and Aggregation for Action Recognition》

    代码地址:暂无

    该文章发表于CVPR2020,文章认为对于视频动作识别需要将视频的short-range信息和long-range信息都利用起来。所以文章提出了两个模块,motion excitation (ME) module用来提取short-range信息, multiple temporal aggregation (MTA) module用来提取long-range信息。

    一、网络结构

    网络结构如下图所示

    1.png

    对于一个输入视频,首先将视频等分为T份,然后从每一份中随机抽取一帧,将抽取出的T帧作为网络的输入。文章的模型是基于2D CNN ResNet改进的,改进方法就是加入ME和MTA来构成 Temporal Excitation and Aggregation(TEA) block。

    ME和MTA的结构如下图所示

    2.png

    1.1 motion excitation (ME) module

    文章认为特征的不同通道获取到了不同的信息,比如一部分通道用来学习背景信息,其它通道学习动态的运动信息,而ME模块就是为了发现并加强学习动态运动信息的通道。

    如上图所示,ME的输入为X,其维度为[N,T,C,H,W],N表示batch size,T表示时间维度,C表示特征通道维度,H、W分别为特征的空间维度。

    首先X经过一个1\times 1的2D卷积来减少通道数,提高计算效率。

    X^r=conv_{red}*X, X^r\in R^{N\times T\times C/r \times H \times W}

    其中X^r表示卷积输出的特征,*表示卷积操作,r=16表示减少的通道数。

    接下来要估计计算t时刻两个相邻帧之间的差别,差别的体现不是直接采用原始特征相减,而是经过一个channel-wise transformation然后在进行做差操作,公式表示为

    M(t)=conv_{trans}*X^r(t+1)-X^r(t),1\leq t\leq T-1

    其中,M(t)\in R^{N\times C/r\times H\times W}是t时刻的运动特征。conv_{trans}是一个3\times 3的2D channel-wise卷积。

    这里还需要注意,上述做差操作,在T时刻是没有的,这里定义M(T)=0,这样将上述所有的差值进行从concatenate得到所有的运动特征[M(1), ..., M(T)]

    接着将上述特征输入空间的global average pooling层

    M^s=Pool(M), M^s\in R^{N\times T\times C/r\times 1 \times 1}

    再接着M^s通过一个1\times 1的2D卷积conv_{exp}将特征的通道数还原为C,再送入sigmoid function,从而得到了一个motion-attentive权重A。

    A=2\delta(conv_{exp}*M^s)-1, A\in R^{N\times T\times C\times 1\times 1}

    其中\delta表示sigmoid操作。

    因为ME模块最终的目的是加强运动信息通道的特征,简单的做法就是利用A与X相乘,然而这样直接相乘可能会影响模块对背景提取的能力,为了解决这个问题,文章采用了residual的方式,在增强运动信息的同时保留原始信息。公式表示如下:

    X^o=X+X\odot A, X^o\in R^{N\times T\times C\times H\times W}

    X^o是ME模块最终的输出,\odot表示channel-wise的乘积。

    这一系列操作很像SEnet中的attention操作,文章讨论了与SE的几点不同:

    1. ME模块是针对视频提出来的,SE是针对图片任务
    2. SE是为了增强特征中通道信息,ME是为了增强motion-sensitive信息
    3. SE会抑制一些无用的通道,但ME会通过residual结构保留静态的背景信息

    可以看出通过利用相邻两帧特征的差别,来获取motion-sensitive attention信息,这样ME就可以很好的加强了short-range信息。

    1.2 multiple temporal aggregation (MTA)

    MTA结构类似于Res2net,模块输入为X,然后将X在通道维度划分为4部分,每一部分的维度为[N,T,C/4,H,W]

    MTA模块用公式表示如下:
    X^o_i=X_i, \quad i=1,

    X^o_i=conv_{spa}*(conv_{temp}*X_i), \quad i=2,

    X^o_i=conv_{spa}*(conv_{temp}*(X_i+X_{i-1})), \quad i=3,4,

    其中X^o_i\in R^{N\times T\times C/4 \times H\times W}表示每部分的输出,conv_{temp}表示kernel size为3的1D channel-wise时序卷积,conv_{spa}表示3\times 3 2D空间卷积。

    MTA模块最终的输入为几个部分输出的concatenate结果

    X^o=[X^o_1;X^o_2;X^o_3;X^o_4], X^o\in R^{N\times T\times C\times H\times W}

    可以看出MTA每个部分的感受野是不一样的,文章认为这种结构比强行堆叠多个卷积操作效果要好且计算更高效。

    1.3 将ME与MTA整合进resnet block

    整合方式如下图所示


    3.png

    相关文章

      网友评论

          本文标题:《TEA: Temporal Excitation and Ag

          本文链接:https://www.haomeiwen.com/subject/szvqeltx.html