为什么要使用Transformer

Transformer 是一种Seq2Seq模型，在NLP中有很多Seq2Seq模型，比如RNN，CNN等均可以做成Seq2Seq模型，既然有了RNN和CNN的Seq2Seq 模型，为啥有来一个Transformer 呢？当然了两者存在缺点。

RNN
RNN又叫做循环神经网络，是进行自然语言处理的标准模型，因为它可以补获句子长依赖，（所谓长依赖就是当前词和距离很长的前馈词存在关系），但是RNN存在致命缺点那就是无法并行化。因为在RNN中向要计算 $x_i$ 的值就必须先计算完成 $x_1$ 到 $x_{i-1}$ 的所有值。
CNN
CNN 称为卷积神经网络，CNN可以并行计算，但是比较难比较难解决长依赖问题（除非堆叠非常多隐藏层或者加大卷积核大小）。

在这样RNN 和CNN 都存在各自问题情况下，Transformer诞生了。Transformer 架构避免了神经网络中的循环递归，而完全依赖Self-Attention机制，绘制输入与输出之间的全局关系。

Transformer 结构

Transformer 是一个Encoder-Decoder结构，从全局看其结构如下：

Encoder-Decoder

左边是Encoder，右边是Decoder。

如果再进一步细看其结构可以展开为：

Transformer-Encoder

在左边Encoder有6个子模块，每个模块都是一个小小的Encoder单元。而右面的Decoder部分同样有6个小小的Decoder 单元，同时Encoder 与Decoder 通过Encoder的输出建立连接-- Encoder 的输出作为每个Decoder子模块的输入。

Transformer 全结构如下：

Transformer

Transformer Encoder 结构

Transformer Encoder 就是一个特征提取器，其作用于RNN、CNN类似，在Encoder 中有6个子模块，子模型结构完全相同，一共堆叠了6层。

组成

Embedding ：将输入 X转变成 Embedding 向量 X
Positional Embedding：将当前位置信息加入到 Embedding 向量中，直接相加得到向量V
Self-Attention：将向量 V 输入Self-Attention 模型得到其结果 Z
Add+Norm：将向量V和向量Z相加（残差网络），之后进行 Layer Norm 得到
FNN：经过FNN的特征提取后，再次再次经过 Add + Norm运算得最终结果。
值得注意的是 FNN的是经过了两次线性变换，先升维后降维

Transformer-Encoder

Transformer Decoder 是什么样

在Transformer 中Decoder 与Encoder 类似。不同地方有：

Mask层，作为Decoder 是不允许看到未来出现的词的，所有训练是需要将Decoder未来词进行Mask
在Decoder 的Attention 中Key 和Value 不再是和当前句子，而是Encoder 处理结果。

什么是Multi-head

Self-Attention 是一种特征抽取的方法，Multi-Head 其实就是多做几组Key、Value、Query ，这样就可以抽取不同类型特征，增强模型效果

为什么要添加残差

残差网络又称为ResNet，RestNet 之所以提出是应对多层神经网络在反向传播中长距离梯度消失问题的解决方案。

什么是Mask ，如何Mask

针对为什么需要Mask 其实已经在前文提及，简而言之就是，在Decoder时是按照词进行顺序处理，当输出当前词时是不允许进以后的词信息进行加权求和。
Mask时机是在 Query 与Key 计算相似度之后，在进行Softmax之前进行，其实mask就是将未来此权重设置中0。至于如何mask这还是要从softmax 公式说起，softmax 计算公式如下：
$score = \frac{e^x}{\sum{e^x}}$
从如上公式中，如果让score 为0 ，则只能使得分子为0 ，如果想让分子为0，则x必须等于-inf。针对如何操作还是有一定技巧，核心就是制作上三角矩阵，对角线以上（不包括对角线）值全部为-info，其他值全部为0。之后让相似度与该对角矩阵相加，在计算Softmax即可。
$Weight = Softmax(Q*K + Diag(Mask))$