注意力机制与Seq2Seq模型

作者: 英文名字叫dawntown | 来源:发表于2020-02-19 20:01 被阅读0次

datawhale-task04（机器翻译及相关技术；注意力机制
序列模型和注意力机制
Task04: 动手学深度学习——机器翻译及相关技术；注意力机制
注意力机制与Seq2Seq模型
深度模型Attention
20201025-BERT2- 背景知识
Pytorch学习记录-Seq2Seq模型实现（Encoder部
Pytorch学习记录-Seq2Seq模型实现（Seq2Seq部
Pytorch学习记录-Seq2Seq模型实现（Decoder部
Seq2Seq模型概述

1. 注意力机制

在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。

与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。在seq2seq模型中，解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。

1.1 注意力机制框架

Attention 是一种通用的带权池化方法，输入由两部分构成：询问（query）和键值对（key-value pairs）。 $\boldsymbol{k}_i\in\mathbb{R}^{d_k}, \boldsymbol{v_i}\in\mathbb{R}^{𝑑_𝑣}$ 。Query $\boldsymbol{q}\in\mathbb{R}^{𝑑_𝑞}$ ，attention layer得到输出与value的维度一致 $\boldsymbol{o}\in\mathbb{R}^{𝑑_𝑣}$ 。对于一个query来说，attention layer 会与每一个key计算注意力分数并进行权重的归一化，输出的向量 $\boldsymbol{o}$ 则是value的加权求和，而每个key计算的权重与value一一对应。

为了计算输出，我们首先假设有一个函数 $\alpha$ 用于计算query和key的相似性，然后可以计算所有的 attention scores $a_1,a_2,...,a_n$ by
$a_i = \alpha(\boldsymbol{q},\boldsymbol{k_i})$
我们使用 softmax函数获得注意力权重：
$b_1,...,b_n = softmax(a_1,...,a_n)$
最终的输出就是value的加权求和：
$\boldsymbol{o}=\sum_{i=1}^{n}b_i\boldsymbol{v_i}$

Attention机制

不同的attetion layer的区别在于score函数的选择

1.2 点积注意力

The dot product 假设query和keys有相同的维度, 即 $\forall i, \boldsymbol q, \boldsymbol{k_i}\in \mathbb{R}_d$ . 通过计算query和key转置的乘积来计算attention score,通常还会除去 $\sqrt{d}$ 减少计算出来的score对维度𝑑的依赖性，如下
$\alpha(\boldsymbol{q},\boldsymbol{k})=\langle\boldsymbol{q},\boldsymbol{k}\rangle/\sqrt{d}$
假设 $\boldsymbol{Q}\in \mathbb{R}^{m\times d}$ 有 $m$ 个query， $\boldsymbol{K}\in \mathbb{R}^{n\times d}$ 有 $n$ 个keys. 我们可以通过矩阵运算的方式计算所有 $mn$ 个score：
$\alpha(\boldsymbol{Q},\boldsymbol{K})=\boldsymbol{Q},\boldsymbol{K}^T/\sqrt{d}$

1.3 多层感知机注意力

在多层感知器中，我们首先将 query and keys 投影到 $\mathbb{R}^h$ .为了更具体，我们将可以学习的参数做如下映射 $\boldsymbol{W}_k\in\mathbb{R}^{h\times d_k},\boldsymbol{W}_q\in\mathbb{R}^{h\times d_q}, and\space\boldsymbol{v}\in\mathbb{R}^{h}$ 将score函数定义
$\alpha(\boldsymbol{k,q})=\boldsymbol{v}^Ttanh(\boldsymbol{W_kk+W_qq})$
然后将key 和 value 在特征的维度上合并（concatenate），然后送至 a single hidden layer perceptron 这层中 hidden layer 为 ℎ and 输出的size为 1 .隐层激活函数为tanh，无偏置.

总的来说

注意力层显式地选择相关的信息。
注意层的内存由键-值对组成，因此它的输出接近于键类似于查询的值。

注意力机制还没有弄明白，以后继续补充

datawhale-task04（机器翻译及相关技术；注意力机制
机器翻译相关注意力机制与Seq2Seq模型 Transformer（完全没弄明白）
序列模型和注意力机制
序列模型和注意力机制 seq2seq（sequence to sequence）模型集束搜索（Beam searc...
Task04: 动手学深度学习——机器翻译及相关技术；注意力机制
（学习笔记，待补充）本文目录如下： 1.机器翻译1.1 机器翻译的概念 2.注意力机制与Seq2seq模型 3.T...
注意力机制与Seq2Seq模型
1. 注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（contex...
深度模型Attention
Attention机制源于对Seq2Seq模型的几个问题优化。Seq2Seq是基于Encoder-Decoder架...
20201025-BERT2- 背景知识
在了解seq2seq之后，了解其该机方法-Self-attention注意力机制参考：https://zhuan...
Pytorch学习记录-Seq2Seq模型实现（Encoder部
一点点总结回过头看看这三天的模型，从一般LSTM Seq2Seq -> GRU Seq2Seq -> 基于注意力机...
Pytorch学习记录-Seq2Seq模型实现（Seq2Seq部
一点点总结回过头看看这三天的模型，从一般LSTM Seq2Seq -> GRU Seq2Seq -> 基于注意力机...
Pytorch学习记录-Seq2Seq模型实现（Decoder部
一点点总结回过头看看这三天的模型，从一般LSTM Seq2Seq -> GRU Seq2Seq -> 基于注意力机...
Seq2Seq模型概述
seq2seq序列到序列模型本文从RNN角度出发，主要是讲述seq2seq模型的原理。 Seq2Seq模型简介 ...