美文网首页
注意力机制(Attention)Non-local Neural

注意力机制(Attention)Non-local Neural

作者: 牛肉塔克 | 来源:发表于2018-12-05 18:38 被阅读0次

    2018CVPR的一篇论文,主要解决的问题是通过Non-local的方法扩大传统CNN,RNN方法的感知域(即传统的CNN一个像素点对应的输出只受其neighbor的影响,Non-local方法使每一点的输出受所有像素点的影响)。模型结构简单,效果提升显著,且可以方便的嵌入到现有网络中。对于一个视频信息在时间域,空间域都有提升:

    example

    输入数据X中每个点i对应的输出Y,通过下式求得:

    y_{i} =\frac{1}{C(x)} \sum_{j=1}^n f(x_{i} ,x_{j} )g(x_{j} )

    上述过程可以理解为一个加权平均过程,其中函数g看作对输入数据的预处理过程,函数f理解为数据各位置间的相关程度。文中给出了几个f,g函数的实例,同时指出了最终效果对函数的选择的敏感度不高。

    为简化函数g选择g(x_{j} )=W_{g} x_{j} 做一个线性的embedding,函数f采用以下实例:

    Gaussian:f(x_{i}, x_{j} )=e^{x_{i}^Tx_{j} }               Embedded Gaussian:f(x_{i}, x_{j} )=e^{\theta (x_{i} )^T \phi (x_{j} )}

    Dot product:f(x_{i} ,x_{j} )=\theta (x_{i} )^T \phi (x_{j} )

    Concatenation:f(x_{i} ,x_{j} )=ReLU(w_{f}^T[\theta (x_{i} )^T, \phi (x_{j} )] )

    模型的功能可以通过一个残差块实现,残差块定义为z_{i}=W_{z} y_{i} +x_{i} ,结构如下

    A spacetime non-local block

    文中还提到了一个subsample trick,在\phi ,g后加上一个最大池化层,可以有效地提升计算效率。

    文章最后针对视频分类,图像识别,语义分割多个领域进行实验,加入残差块的网络都取得了很大性能提升,同时对加入的位置进行实验,得出加入残差块的位置在网络的浅层效果更加明显(自己理解是浅层的future map维度比较大,全局获得的信息更多)。

    相关文章

      网友评论

          本文标题:注意力机制(Attention)Non-local Neural

          本文链接:https://www.haomeiwen.com/subject/fuvwcqtx.html