1 Transformer 概述

在机器学习中，我们有很多任务都是 “序列to序列” 的形式，比如语音识别、机器翻译、文本标注等等。而且在这些任务中，输入序列和输出序列的长度都是不定的，如么如何实现这种序列的转换呢？这就要用到一个很常见的网络架构— transformer 。transformer的一般结构如下图所示，包括编码（Encoder）和解码(Decoder)两个部分。Encoder对输入序列进行编码输出一个序列，转交给Decoder,Decoder对这个序列进行解码，输出我们需要的序列。

tansformer一般结构

2 Transformer的Encoder

首先，我们来看一下transformer的Encoder架构是怎样的。transformer对输入序列进行编码生成另一个长度相等的序列，如下图所示，这里假设输入序列是向量 $x_1、x_2、x_3、x_4$ ，对应的输出是向量 $h_1、h_2、h_3、h_4$ 。编码的目的实际上就要考虑序列的全局并聚焦重点，所以Encoder的核心就是自注意力机制，但不仅仅只有自注意力机制。

编码器
Encoder由多个Block组成，每个Block又由自注意力（self-attention）网络和全连接（full-connected）组成。向量

x_1、x_2、x_3、x_4

通过自注意力网络后生成四个向量，这些向量是考虑了序列全局的，然后每个向量再通过一个全连接网络进行一次变换得到四个向量，通过几次Block后才输出向量

h_1、h_2、h_3、h_4

。

编码器由多个block组成
实际上，Block的计算还有一些细节，如下图所示。具体包括两个方面：

$x_1、x_2、x_3、x_4$ 通过自注意力网络后并不是直接输入到全连接层。首先，自注意力网络的输出向量与它的输入向量进行了求和。这种操作在深度网络中很常见，有一个专门的名字叫做残差（residual），残差操作的目的是为了防止梯度消失和网络退化。其次，经过残差操作后，进行了一次Layer normalization，把向量转化成均值为0方差为1的向量，即归一化。计算过程如下图所示（下面这个图有点错误，公式应当是 $x'_i=\frac{x_i-m}{\sigma }$ ）。Layer normalization是为了防止向量落在激活函数的饱和区。经过上述两个过程的计算后，才得到全连接层的输入。
全连接层的输出也不是直接输出到下一层Block，同样经过了残差和Layer normalization的操作。
Block中的残差和Layer normalization操作
总结起来，Encoder的全部计算过程如下图所示，在一个Block中，首先经过一个Multi-Head Attention层，然后进行一次残差（residual）和Layer normalization操作，然后输入到一个全连接层（即Feed Forward），重复多个Block最后输出一个序列。
下面这个图值得注意的一个地方是输入向量并不是直接输入到Encoder，而是叠加了一个位置编码（Positional Encoding）。所谓位置编码是指将序列中某个向量所处的位置进行编码，生成一个与向量长度一样的向量，这对于自然语言处理是很重要的。例如进行此行标注的时候，句首的词是动词的可能性很小。位置编码的方式有很多，现在也有很多文章在研究一些新的方法，感兴趣的可以去研究一下。
Encoder的全貌

3 Transformer的Decoder

Encoder对输入进行编码后输出一个序列，Decoder则要根据这个序列输出我们最后想要的一个序列。以语音识别为例，我们对着机器说，“机器学习”。Encoder对我们的语音进行编码生成一个序列，Decoder就是要根据这个序列输出“机器学习”几个字，那么是如何实现的呢？

3.1 Decoder的自回归（Autoregressive）机制。

首先，我们要设置一个特殊的符号“Begin”作为输入，Decoder结合Encoder输出的序列和“Begin"这个输入产生一个向量。这个向量的长度非常长，长到和字典的大小相同。假如我们的字典是中文常用词3500字，那么这个向量的长度就是3500。这个向量再经过一个softmax操作，输出一个概率分布，概率最大的那个字就是“Begin”的输出。比如上面这个例子“机”字的概率最大，那么就输出“机”。