美文网首页
2020-05-06 Attention机制本质

2020-05-06 Attention机制本质

作者: 掉了西红柿皮_Kee | 来源:发表于2020-05-06 12:13 被阅读0次

I found myself not as enthusiastic as before.


Attention,如果将其华丽的外衣褪下,其本质便是加权平均。关于Attention涉及到的<Q,K,V>矩阵,通俗点来说就是一种支持相似查询的加权表示。将Q做为待查询相似的Query,而待选区被称作Source,包含<K,V>成对的键值对矩阵,其形式可以简单的想成字典(dict)的形式。运算拆解:对于矩阵Q中的q向量,面向K矩阵中的每个k进行相似度计算得到sim(q,v),得到与<K,V>长度(len(K) or len(V))等同的相似度表示Score,将其通过归一化(softmax())转成权重形式,此时对应的权重分别于对应的V相乘,这样单一的query(q)被表示为由很多<K,V>对去回答的向量,从而涵盖了更多的可用信息。注:在Attention中常用矩阵进行运算,因此写作Q。

偷来的图1.png

从“偷来的图1.png”可以看出将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。因此,最终的计算可以用公式表示:

formula.png

Attention机制的具体计算过程,可以将其归纳为两个过程:第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和。而第一个过程又可以细分为两个阶段:第一个阶段根据Query和Key计算两者的相似性或者相关性sim;第二个阶段对第一阶段的Score进行归一化处理;这样,可以将Attention的计算过程抽象为下图的三个阶段。

偷来的图2.png

在第一个阶段,可以引入不同的函数和计算机制,根据q(Query)和某个k ,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine或者通过再引入神经网络来求值。

dot.png cosine.png MLP.png

第一阶段产生的分值根据具体产生的方法不同其数值取值范围也不一样,第二阶段引入类似SoftMax()的计算方式对第一阶段的得分进行数值转换得到向量表示A,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax()的内在机制更加突出重要元素的权重。

softmax().png

第二阶段的计算结果A与Source中的<K,V>对应,A中的索引为i的权重a即为V中索引为i的value的权重系数,然后进行加权求和即可得到Attention数值:

att-result.png

通过如上三个阶段的计算,即可求出针对Query的Attention值。

相关文章

  • 2020-05-06 Attention机制本质

    I found myself not as enthusiastic as before. Attention,如...

  • Attention机制概念整理

    深度学习中的注意力机制(Attention Macheanism): Attention机制较为广泛的应用是为了解...

  • Attention机制及代码实现

    什么是Attention机制? 本质上是目标语单词和源语单词之间的一种单词对齐机制。在NLP中最先出现的文章为:《...

  • Attention本质

    应用层面:空间注意力Spatial Attention 时间注意力 Temporal At...

  • 理论汇总

    1 多任务学习 (1)多任务学习在推荐算法中的应用 2 attention机制 (1)Attention机制在深度...

  • attention机制

    当前的embedding向量cur_f1 和 历史的embedding向量his_f1 计算相似性; 对相似性权重...

  • Attention 机制

    Attention 机制 人类视觉系统会对被观察对象的不同地方,分配不同的注意力,而 Attention 机制正是...

  • Attention 机制

    记录一下自己所理解的 Attention 机制:首先先从 Encoder-Decoder 框架来宏观角度的看 At...

  • Attention机制

    用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法...

  • Attention机制

    历史 2014年google mind团队,在RNN模型上使用了attention机制来进行图像分类,然后取得了很...

网友评论

      本文标题:2020-05-06 Attention机制本质

      本文链接:https://www.haomeiwen.com/subject/sppightx.html