attention机制

作者: 酥脆海苔饼干 | 来源:发表于2019-05-28 15:36 被阅读0次

Attention机制概念整理
理论汇总
attention机制
Attention 机制
Attention 机制
Attention机制
Attention机制
Attention 机制
attention机制
attention机制

1. 增强型attention算法的理解

image.png

上图中的softmax(QT)为attention权重，具体过程为：
在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。

image.png

2. self-attention算法的理解

self-attention来自于google文章《attention is all you need》。一个序列每个字符对其上下文字符的影响作用都不同，每个字对序列的语义信息贡献也不同，可以通过一种机制将原输入序列中字符向量通过加权融合序列中所有字符的语义向量信息来产生新的向量，即增强了原语义信息。
Self-Attention:对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，即 Q = K = V(后面会经过变化变的不一样)，同时对attention权重做了缩放，除去了维度值。因此，该Attention机制也叫Self-Attention。