1. 增强型attention算法的理解
image.png上图中的softmax(QT)为attention权重,具体过程为:
在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。如下图所示,Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即:目标字的增强语义向量表示。
image.png
2. self-attention算法的理解
self-attention来自于google文章《attention is all you need》。 一个序列每个字符对其上下文字符的影响作用都不同,每个字对序列的语义信息贡献也不同,可以通过一种机制将原输入序列中字符向量通过加权融合序列中所有字符的语义向量信息来产生新的向量,即增强了原语义信息。
Self-Attention:对于输入文本,我们需要对其中的每个字分别增强语义向量表示,因此,我们分别将每个字作为Query,加权融合文本中所有字的语义信息,得到各个字的增强语义向量,如下图所示。在这种情况下,Query、Key和Value的向量表示均来自于同一输入文本,即 Q = K = V(后面会经过变化变的不一样), 同时对attention权重做了缩放,除去了维度值。因此,该Attention机制也叫Self-Attention。
image.png
3. Multi-head Attention算法理解
为了增强Attention的多样性,文章作者进一步利用不同的Self-Attention模块获得文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量,如下图所示。
4. 相似及其它计算
image.png参考链接:
(1) https://my.oschina.net/u/3851199/blog/3012476
(2)https://wallstreetcn.com/articles/3417279
(3)https://cupdish.com/2018/03/28/attention-is-all-you-need/#Self-attention-Model
(4)https://segmentfault.com/a/1190000017899526
网友评论