注意力机制和transformer

作者: Cache_wood | 来源:发表于2022-02-26 00:24 被阅读0次

不得不说的事儿，Attention和Transformer
NLP 学习：Transformer 公开课课程大纲（21-30
transformer模型
Transformer
注意力机制和transformer
基于 Transformer 的 NLP 智能对话机器人实战课程
【Transformer理解】
注意力机制
Attention注意力机制
datawhale-task04（机器翻译及相关技术；注意力机制

@[toc]

非参注意力池化层

给定数据 $(x_i,y_i),i = 1,……，n$
平均池化是最简单的方案： $f(x) = \frac{1}{n}\sum_i y_i$
更好的方案是60年代提出来的Nadaraya-Watson核回归
$f(x) = \sum_{i=1}^n \frac{K(x-x_i)}{\sum_{j=1}^n K(x-x_j)}y_i\\$
使用高斯核 $K(u) = \frac{1}{\sqrt{2\pi}}exp(-\frac{u^2}{2})$
$f(x) = \sum_{i=1}^n \frac{exp(-\frac{1}{2}(x-x_i)^2)}{\sum_{j=1}^n exp(-\frac{1}{2}(x-x_j)^2)}y_i\\ \sum_{i=1}^n softmax(-\frac{1}{2}(x-x_i)^2)y_i$

参数化的注意力机制

心理学认为人通过随意线索和不随意线索选择注意点
注意力机制中，通过query（随意线索）和key（不随意线索）来有偏向性的选择输入
- 可以一般的写作 $f(x) = \sum_i \alpha (x,x_i)y_i$ ,这里 $\alpha (x,x_i)$ 是注意力权重
- 早在60年代就有非参数的注意力机制

注意力分数

拓展到高维度

假设query $q \in R^q, m对key-value (k_1,v_1),…$ ，这里

Additive Attention

可学参数： $W_k \in R^{h\times k}, W_q \in R^{h \times q}, v \in R^h$

$a(k,q) = v^T tanh(W_k k + W_q q)$
等价于将key和value合并起来后放入到一个隐藏大小为h输出大小为1的单隐藏层MLP

Scaled Dot-Product Attention

如果query和key都是同样的长度 $q,k_i \in R^d$ ,那么可以
$a(q,k_i) = <q,k_i>/\sqrt{d}$
向量化版本
- $Q\in R^{n\times d},K\in R^{m\times d},V \in R^{m\times v}$
- 注意力分数： $a(Q,K) = QK^T/\sqrt{d} \in R^{n \times m}$
- 注意力池化： $f = softmax(a(Q,K)) V \in R^{n\times v}$

总结

注意力分数是query和key的相似度，注意力权重是分数的softmax结果
两种常见的分数计算：
- 将query和key合并起来进入一个单输出单隐藏层的MLP
- 直接将query和key做内积

使用注意力机制的seq2seq

动机

机器翻译中，每个生成的词可能相关于源句子中不同的词
seq2seq模型中不能对此直接建模

加入注意力 Encoder

编码器对每次词的输出作为key和value
解码器RNN对上一个词的输出是query
注意力的输出和下一个词的词嵌入合并进入

总结

seq2seq中通过隐状态在编码器和解码器中传递信息
注意力机制可以根据解码器RNN的输出来匹配到合适的解码器RNN的输出来更有效的传递信息

自注意力机制

自注意力

给定序列 $x_1,……，x_n, x_i \in R^d$
自注意力池化层将xi当做key，value，query来对序列抽取特征得到 $y_1,…,y_n$ ，这里
$y_i = f(x_i,(x_1,x_1),…,(x_n,x_n))\in R^d$

跟CNN，RNN对比

	CNN	RNN	自注意力
计算复杂度	$O(knd^2)$	$O(nd^2)$	$O(n^2d)$
并行度	O(n)	O(1)	O(n)
最常路径	O(n/k)	O(n)	O(1)

位置编码

跟CNN/RNN不同，自注意力并没有记录位置信息
位置编码将位置信息注入到输入里
- 假设长度为n的序列是 $X\in R^{n\times d}$ ，那么使用位置编码矩阵 $P \in R^{n \times d}$ 来输出 $X+ P$ 作为自编码输入
- P的元素如下计算：
  $p_{i,2j} = sin(\frac{i}{10000^{2j/d}}),p_{i,2j+1} = cos(\frac{i}{10000^{2j/d}})$

位置编码矩阵

相对位置信息

位置于 $i+\delta$ 处的位置编码可以线性投影位置i处的位置编码来表示
记 $w = 1/10000^{2jld}$ ,那么

$[cos(\delta w_j) \quad sin(\delta w_j)\\ -sin(\delta w_j) \quad cos(\delta w_j)][p_{i,2j}, p_{i+\delta,2j+1}]\\ 投影矩阵，跟i无关$

总结

自注意力池化层将xi当做key，value，query来对序列抽取特征
完全并行，最长序列为1，但对长序列计算复杂度高
位置编码在输入中加入位置信息，使得自注意力能够记忆位置信息

transformer

Transformer架构

基于编码器-解码器架构来处理序列对
跟使用注意力的seq2seq不同，transformer是纯基于注意力

多头注意力

对同一key，value，query，希望抽取不同的信息

例如短距离关系和长距离关系
多头注意力使用h个独立的注意力池化
- 合并各个头（head）输出得到最终输出

有掩码的多头注意力

解码器对序列中一个元素输出时，不应该考虑该元素之后的元素
可以通过掩码来实现
- 也就是计算xi输出时，假装当前序列长度为i

基于位置的前馈网络

将输入形状由 $(b,n,d)$ 变换成 $(bn,d)$
作用两个全连接层
输出形状由 $(bn,d)$ 变化为 $(b,n,d)$
等价于两层核窗口为1的一维卷积层

层归一化

批量归一化对每个特征/通道里元素进行归一化
- 不适合序列长度会变的NLP应用
层归一化对每个样本里的元素进行归一化

信息传递

编码器中的输出 $y_1,…，y_n$
将其作为解码中的第i个transformer块中多头注意力的key和value
- 它的query来自目标序列
意味着编码器和解码器中块的个数和输出维度都是一样的

预测

预测第t+1个输出时
解码器中输入前t个预测值
- 在自注意力中，前t个预测值作为key和value，第t个预测值还作为query

总结

transformer是一个纯使用注意力的编码-解码器
编码器和解码器都有n个transformer块
每个块里使用多头（自）注意力，基于位置的前馈网络，和层归一化

不得不说的事儿，Attention和Transformer
注意力机制和Transformer，All u need is Attention！
NLP 学习：Transformer 公开课课程大纲（21-30
关于 Transformer 和注意力机制提出的问题可以查看 Gitee Transformer101Q[http...
transformer模型
参考文章Transformer注意力机制有效的解释：Transformer所使用的注意力机制的核心思想是去计算一句...
Transformer
什么是Transformer Transformer是基于Self-attention注意力机制的一种网络结构，同...
注意力机制和transformer
@[toc] 非参注意力池化层给定数据平均池化是最简单的方案：更好的方案是60年代提出来的Nadaraya-...
基于 Transformer 的 NLP 智能对话机器人实战课程
关于 Transformer 和注意力机制提出的 101 个高级思考问题可以查看 Gitee Transforme...
【Transformer理解】
Transformer是一个利用注意力机制来提高模型训练速度的模型。关于注意力机制可以参看这篇文章[https:/...
注意力机制
(一)注意力机制接下来的这部分就是序列模型中transformer的重要部分了我门先从注意力机制开始入手。（1...
Attention注意力机制
网上的文章总把Attention注意力机制和Transformer模型结合来讲，看起来非常复杂。实际上Attent...
datawhale-task04（机器翻译及相关技术；注意力机制
机器翻译相关注意力机制与Seq2Seq模型 Transformer（完全没弄明白）

注意力机制和transformer

非参注意力池化层

参数化的注意力机制

注意力分数

拓展到高维度

Additive Attention

Scaled Dot-Product Attention

总结

使用注意力机制的seq2seq

加入注意力 Encoder

总结

自注意力机制

自注意力

跟CNN，RNN对比

位置编码

位置编码矩阵

相对位置信息

总结

transformer

Transformer架构

多头注意力

有掩码的多头注意力

基于位置的前馈网络

层归一化

信息传递

预测

总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读