自然语言处理中的注意力机制

作者: l1n3x | 来源:发表于2019-03-11 11:17 被阅读0次

paper to read
(转)注意力机制（Attention Mechanism）在自然
自然语言处理中的注意力机制
Attention Is All You Need-谷歌的"自注
自注意力机制(self-attention)——考虑全局又聚焦重
transformer in cv
转《深度学习中的注意力机制》
文献阅读笔记：Hierarchical Attention Ne
产品经理如何入门自然语言处理（NLP）？
NLP入门之N元语法模型

传统翻译模型

最早注意力记忆是在[1]中提出，这里利用翻译任务来举例。传统的翻译任务通常使用的为sequence to sequence模型，使用一个encoder将输入编码为一个context vector，再使用decoder将context 解码为输出。更正式一点，encoder 将输入 $X=(x_1,..,x_T)$ 编码为一个向量 $c$ 。最通常的方法是使用RNN:
$h_t = f(x_t, h_{t-1})$
$c = q({h_1,...,h_T})$
其中 $h_t \in R^n$ 是RNN的隐藏状态。 $c$ 是从隐藏状态中生成的一个向量。一个典型的方式是使用 $q(h_1,...,h_T)＝h_T$ 。decoder通过 $c$ 以及 $t$ 时刻前的输出预测下一个输出:
$p(y)=\prod_{t=1}^Tp(y_t|{y_1,...,y_{t-1}},c)$
这种模型的不足之处在于无论多长的的输入都会被压缩为一个固定长的向量 $c$ ，在[2]提到了，这种方式随着输入序列的增加，sequence to sequence的模型的性能会迅速下降。

align模型

针对上面提到的问题，[1]中提出了align模型，也就是记忆力模型的基础。在align模型中， $c$ 并不是一个固定的向量，而是通过通过对encoder的隐藏状态 $h$ 进行加权得到的一个向量:
$c_t=\sum_{j=1}^{T}a_{tj}h_j$
$a_{tj} = \frac{exp(e_{tj})} {\sum_{k=1}^{T}exp(e_{tj})}$
$e_{tj}=a(s_{t-1}, h_j)$
通俗的来说，就是当计算 $y_t$ 时，通过 $t-1$ 时刻decoder状态 $s_{t-1}$ 与encoder的所有状态 $h_1, ..., h_T$ 通过函数 $a$ 计算权重，并对所有个状态向量进行加权。在传统的sequence to sequence模型中，向量 $c$ 是不变的。而在align模型中，向量 $c$ 在每一个时刻 $t$ 都是由encoder的隐藏状态 $h_1,...,h_t$ 加权生成的。而这些权重不同，代表不同的隐藏状态对最终生成的向量 $c$ 贡献是不同的，可以理解为注意力更集中于权重较大的隐藏状态，这也是注意力机制的由来， $a$ 函数也可以理解为相似度函数。而之所以称之为 $align(对齐)$ 模型，是因为计算权重的过程其实是寻找decoder隐藏状态与encoder隐藏状态哪一个更相似，就类似与一个把 $s_t$ 与 $h_t$ 对齐的过程。
论文给出的图如下:

align模型图

attention for neural machine translation

[3]将[1]提到的模型用于机器翻译任务，这里也就正式提出attention这个概念。其方式在时刻 $t$ 获取到向量 $c_t$ 后，最终的状态向量:
$\hat h_t = tanh(W_c[c_t;h_t])$
$[x;y]$ 表示对矩阵行进行连接，得到最终的概率输出为:
$p(y_t|y_{<t}, x) = softmax(W_s*\hat h_t)$
结构图为:

attention for nlp

这里的 $\overline h_s$ 是指encoder的隐藏状态。此外，论文中还给出了 $a$ 函数的几个形式:
$\operatorname{score}\left(\boldsymbol{h}_{t}, \overline{\boldsymbol{h}}_{s}\right)=\left\{\begin{array}{ll}{\boldsymbol{h}_{t}^{\top} \overline{\boldsymbol{h}}_{s}} & {\text { dot }} \\ {\boldsymbol{h}_{t}^{\top} \boldsymbol{W}_{a} \overline{\boldsymbol{h}}_{s}} & {\text { general }} \\ {\boldsymbol{W}_{\boldsymbol{a}}\left[\boldsymbol{h}_{t} ; \overline{\boldsymbol{h}}_{s}\right]} & {\text { concat }}\end{array}\right.$
此外，还可以使用余弦相似度等方法计算相似度。目前其他论文中使用的较多的是第一种点乘相似度和余弦相似度。
此外论文还提出了全局注意力与局部注意力，全局注意力即是上面描述的方式。
局部注意力会先计算出一个 $p_t$ ，然后只计算 $h_t$ 与 $\{\overline h_s| s \in [p_t-D, p_t+D]\}$ 的相似度。 $D$ 是一个经验值。论文中给出了两种计算 $p_t$ 的方式:

Monotonic alignment
直接将 $p_t$ 设置为 $t$ ，这种方式认为encoder与decoder是单调对齐的。此时的权重计算方式不变。
Predictive alignment
这种方式 $p_t$ 是通过训练得来。 $S$ 为source sentence的长度， $\boldsymbol{W}_{\boldsymbol{p}}$ 与 $\boldsymbol{v}_{p}$ 为模型参数。
$p_{t}=S \cdot \operatorname{sigmoid}\left(\boldsymbol{v}_{p}^{\top} \tanh \left(\boldsymbol{W}_{\boldsymbol{p}} \boldsymbol{h}_{t}\right)\right)$
此外，使用这种方式计算的权重还会使用一个正太分布改变权重:
$\boldsymbol{a}_{t}(s)=\operatorname{align}\left(\boldsymbol{h}_{t}, \overline{\boldsymbol{h}}_{s}\right) \exp \left(-\frac{\left(s-p_{t}\right)^{2}}{2 \sigma^{2}}\right)$
这种方式相当于假设注意力主要集中于位置 $p_t$ ，逐渐向两边减弱。

参考

[1] Neural Machine Translation by Jointly Learning to Align and Translate
[2] Sequence to sequence learning with neural networks
[3] Effective Approaches to Attention-based Neural Machine Translation

paper to read
1 NLP 1.1 Attention 《注意力机制（Attention Mechanism）在自然语言处理中的应...
(转)注意力机制（Attention Mechanism）在自然
关键词：注意力机制；Attention机制；自然语言处理；NLP;原文链接地址近年来，深度学习的研究越来越深入，在...
自然语言处理中的注意力机制
传统翻译模型最早注意力记忆是在[1]中提出，这里利用翻译任务来举例。传统的翻译任务通常使用的为sequence ...
Attention Is All You Need-谷歌的"自注
上一篇文章记录了自然语言处理中的注意力机制，这篇文章分析一下google的一篇论文Attention Is All...
自注意力机制(self-attention)——考虑全局又聚焦重
1 自注意力机制概述有时候我们期望网络能够看到全局，但是又要聚焦到重点信息上。比如在在做自然语言处理时，句子中的...
transformer in cv
transformer是一种主要基于自注意力机制的深度神经网络，最初应用于自然语言处理领域。受到transform...
转《深度学习中的注意力机制》
转自张俊林：深度学习中的注意力机制。最近两年，注意力模型（Attention Model）被广泛使用在自然语言处...
文献阅读笔记：Hierarchical Attention Ne
最近在研究Attention机制在自然语言处理中的应用，查找了一些文献。文献：Hierarchical Atten...
产品经理如何入门自然语言处理（NLP）？
自然语言处理，顾名思义即自然语言处理的技术，通常用缩写NLP指代。各类产品经理日常的工作中，会遇到大量自然语言处理...
NLP入门之N元语法模型
在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一...