美文网首页
论文阅读-Top-down Neural Attention b

论文阅读-Top-down Neural Attention b

作者: 叶天羽 | 来源:发表于2018-11-10 11:44 被阅读0次

    问题:

    如何建立一个CNN分类器自上而下的注意力机制,生成针对特定任务的注意力图?针对这一问题,论文提出了一种激励反向传播的机制,同时引入了一个对比注意力的概念。

    相关信息:

    1、受到选择调谐模式的启发,本文提出了一种创新性的反向传播机制-激励反向传播,通过自上而下与自上而下的信息来计算最终激活的神经元,可解释的注意力图由中间层的激励反向传播生成,而没有必要进行完整的反向传播。论文更进一步,提出了对比注意力,来捕捉一对自上而下的对比注意力信号。论文主要贡献如下:1)一种激励注意力机制2)对比注意力可以增强显著图的区分度3)利用注意力模型对弱监督文本到区域关联的较大的探索

    2、与其他有关的方法不同,论文中提出的注意力机制,可以针对普通的CNN网络,来生成特定任务的注意力图,且不需要进行完整的反向传播。

    实现细节:

    1、概率 WTA是论文方法的根本原理,其能够捕获更多的信息,不再局限于只能产生二值化的注意力图。这种方法,需要输出结果的先验概率已知,然后利用条件概率逐层求出神经元的概率,即与特定任务相关的神经元。

    P({a_j}) = \sum\limits_{{a_i} \in {\mathcal{P}_j}} {P({a_j}|{a_i})P({a_i})}

    其中,{{\mathcal{P}_j}}{a_j}的父节点的集合,即上一层的神经元的集合。

    此公式等价于吸收马尔科夫链(在马尔可夫链中,称Pij=1的状态为吸收状态。如果一个马尔可夫链中至少包含一个吸收状态,并且从每一个非吸收状态出发,都可以到达某个吸收状态,那么这个马尔可夫链称为吸收马尔可夫链)。

    2、在现代的CNN模型中,神经元的响应可以表示为:{\widehat a_i} = \varphi (\sum\nolimits_j {{w_{ji}}{{\widehat a}_j}}  + {b_j}),对于激活的神经元,有如下的假设:1)激活神经元的响应非负2)神经元的响应与其关联的特征的置信度成正相关。所以,论文给出了如下的条件概率:

    P({a_j}|{a_i}) = \left\{ {\begin{array}{*{20}{c}}
  {{Z_i}{{\widehat a}_j}{w_{ji}}{\kern 1pt} }&{if{\kern 1pt} {\kern 1pt} {w_{ji}} \geqslant 0,} \\ 
  {\text{0}}&{otherwise.} 
\end{array}} \right.

    其中,{Z_i} = 1/\sum\nolimits_{j:{w_{ji}} \geqslant 0} {{{\widehat a}_j}{w_{ji}}} 是归一化因子,为了保证上式加和为1。特别的,如果\sum\nolimits_{j:{w_{ji}} \geqslant 0} {{{\widehat a}_j}{w_{ji}}} 为0,则定义归一化因子为0。

    后面作了进一步的改进,有

    P({a_j}|{a_i}) = \left\{ {\begin{array}{*{20}{c}}
  {{Z_i}({{\widehat a}_j}+{\lambda}){w_{ji}}{\kern 1pt} }&{if{\kern 1pt} {\kern 1pt} {w_{ji}} \geqslant 0,} \\ 
  {\text{0}}&{otherwise.} 
\end{array}} \right.

    3、对比从上到下的注意力:为了产生具有较高分辨性的注意力图,对每一个输出单元,都定义一个特殊的单元,其输入权重与输出单元的输入权重相反。将这两个单元相减,会消去两者公共的部分,凸显两者的不同

    相关文章

      网友评论

          本文标题:论文阅读-Top-down Neural Attention b

          本文链接:https://www.haomeiwen.com/subject/gvjqtqtx.html