图解Attention

作者: Jarkata | 来源:发表于2021-05-25 16:12 被阅读0次

本文为转载，原文链接： https://wmathor.com/index.php/archives/1450/

关于Attention的公式推导，我在这篇文章讲过了，本篇文章主要以图示的方式进行讲解

首先我们需要将 $s_0$ 和所有的 $h_i(i=1,...,m)$ 计算一个"相关性"，比方说计算 $s_0$ 和 $h_1$ 之间的相关性计算得 $\alpha_1 = align(h_1,s_0)$

计算得到m个相关性 $\alpha_i$ 之后，将这些值与 $h_i$ 进行加权平均，即
$c_0=\sum_{i=1}^m \alpha_i h_i=\alpha_1h_1+···\alpha_mh_m$

我们可以直观的感受一下这样做有什么作用，对于那些值比较大的 $\alpha_k$ ，最终 $c_0$ 中也会有一大部分来自于 $h_k$ 。 $c_0$ 实际上考虑到了所有时刻的 $h$ ，只不过对于某些时刻可能关注的更多，而某些时刻关注的更少，这就是注意力机制。

之后将 $s_0,c_0,x'_1$ 作为 $t=0$ 时刻Decoder的输入，计算得到 $s_1$ ，然后再计算 $s_1$ 与所有 $h_i(i=1,...,m)$ 之间新的相关性 $\alpha_i$ 。

同样的，将新计算得到的 $\alpha_i$ 与 $h_i$ 做加权平均，得到新的 context vector $c_1$ 。

重复上述步骤，直到 Decoder 结束

到这里实际上整个 Seq2Seq (with Attention) 就讲完了，但是其中还有一些细节，比方说，align() 函数怎么设计？ $c_i$ 如何应用到Decoder中？下面一一解释

有两种方法。

在最初的论文，即 Bahdanau 的论文中， $\alpha_i$ 的计算公式为：
$\boldsymbol{e}_{t't} = \boldsymbol{v}^\top \tanh(\boldsymbol{W}_s \boldsymbol{s}_{t'-1} + \boldsymbol{W}_h \boldsymbol{h}_t),$
$\alpha_{t' t} = \frac{\exp(e_{t' t})}{ \sum_{k=1}^T \exp(e_{t' k}) }$
其中 $v$ 、 $W_s$ 、 $W_h$ 和编码器与解码其两个循环网络中的各个权重与偏移项以及嵌入层参数等都是需要同时学习的模型参数。

如下图所示

见下图：

That is :
$s_t = tanh(W_{xs}x_t+W_{ss}s_{t-1}+W_{cs}c_{t-1} +b)$

图解Attention
本文为转载，原文链接： https://wmathor.com/index.php/archives/1450/[...
2018-08-22 Attention模型
完全图解RNN、RNN变体、Seq2Seq、Attention机制https://zhuanlan.zhihu.c...
Seq2Seq与注意力机制
本文为转载，原文链接: 图解Attention - 故事尾音的文章 - 知乎https://zhuanlan.zh...
注意力的英语表达
attention： draw attention, get attention. Draw eyes, draw...
Attention
Attention Multi-Head Attention：类比多个卷积核的方式，将 Attention 重复多...
五分钟图解attention（附代码）
在计算attention时主要分为三步:第一步是，常用的相似度函数有点积，拼接，感知机等；第二步一般是；最后将。目...
Paying Attention and Getting Att
Paying attention and getting attention are two great feel...
paper创新点毫无头绪？要不试试这个百搭的Attention？
全文共3106字，预计学习时长7分钟 “Attention，Attention，还是Attention，看了三篇顶...
法语学习：一些非常有用的法语句子
Attention à la peinture. 当心油漆。 Attention à la voiture ! 当...
坚持学英语的第70天
attend 出席，参加； attention 注意；to pay attention (to) （给予）注意 a...