Transformer

作者: dingtom | 来源:发表于2021-04-04 22:30 被阅读0次

Transformer 是一种新的、基于 attention 机制来实现的特征提取器，可用于代替 CNN 和 RNN 来提取序列的特征。

Transformer 首次由论文《Attention Is All You Need》提出，在该论文中 Transformer 用于 encoder - decoder 架构。事实上 Transformer 可以单独应用于 encoder 或者单独应用于 decoder 。

论文中所设置的，编码器由6个编码block组成，同样解码器是6个解码block组成。与所有的生成模型相同的是，编码器的输出会作为解码器的输入，如图所示：

Encoder的结构如图所示：

encoder的详细结构：

在Transformer的encoder中，数据首先会经过一个叫做‘self-attention’的模块得到一个加权之后的特征向量 $Z$ 即 $Attentionn(Q,K,V)$

得到

Z

之后，它会被送到encoder的下一个模块，即Feed Forward Neural Network。这个全连接有两层，第一层的激活函数是ReLU，第二层是一个线性激活函数，可以表示为：

它和encoder的不同之处在于Decoder多了一个Encoder-Decoder Attention，两个Attention分别用于计算输入和输出的权值：

Self-Attention：当前翻译和已经翻译的前文之间的关系；
Encoder-Decnoder Attention：当前翻译和编码的特征向量之间的关系。

本文标题：Transformer

本文链接：https://www.haomeiwen.com/subject/cuslkltx.html