1.1 背景介绍

假设现在领导给你布置了一项任务，对产品的消费者评价进行情感分类。聪明的你很自然的想到了nlp，那么具体要怎么做呢。

要对评论进行分类，首先我们需要先把评论用计算机可以理解的形式表达出来。最直接的方法先构建评论中所有提及的词汇，将其放入一个字典中。再对每句话中词汇进行计数，然后用词汇的数量来表示一句话。例如以下两句话：

提及的词汇有六个，

这时这两句话的表达就出来了，如下图所示

这种表示方法一般称之为词袋子，就是将所有词都统一丢到袋子中再进行计数，不考虑先后顺序。此外相似的方法还有tfidf表达。这种方法不涉及对词汇本身的表达，只能用于表达句子。

那么我们要怎么表示词汇呢？首先我们来思考一个问题，为什么要对词汇进行表达？这是因为，有了对词汇的表达，不同句子包含相同词汇时，在含义上就被联系在一起，使用词汇计数来表达是很难获取这个信息的。

词汇表达最简单的方法就是one-hot编码，就是使用一个词表长度的向量来表示，词汇在词表中所处位置为1，其他都为0，如下所示。

One-hot向量表示的缺点很明显，当词表越来越大的时候，表达每个词汇的向量也就越来越长，而且这个矩阵是肉眼可见的稀疏，这非常不利于深度学习模型的计算。因此，Duang Duang Duang，下面有请我们的主角，embedding词向量。

Embedding这个词这几年非常的火爆，所谓万物皆可embedding。那么embedding到底是什么含义呢？在我看来，embedding就是对一个对象的分布式表达。这里的分布式表达可以理解成一个n维的向量。这n维向量的含义是固定且不明确的，每个对象的表达相当于是对象在这n维向量上的映射。

还是有点抽象，看完下面我们如何得到embedding词向量，应该会有新的理解。

1.2 Embedding的传统模型

最早的embedding向量是Bengio在2003的论文A Neural Probabilistic Language Model中提出。原论文的图画的不太好，这里就不贴了。模型有四层，输入层是句子的中每个词汇的索引，隐层是将每个词从embedding词表中查出对应词汇的表达，再经过的tanh激活层，最后接一个softmax，预测对象是下个词汇，可以看到这是一个非监督语言模型。其中的embedding词表是可训练的，最终就可以得到每个词汇的向量表达。

现在回过头来看这篇论文可以说是很超前了，但在当时神经网络完全没什么人气，这篇论文也就被埋没了。下面就到了2013年。

2013年Mikolov提出了word2vec，wordvec的模型结构和NNLM很接近。区别在于word2vec的输入是onehot编码的，将onehot（长度为词表长度N）输入乘以参数W（参数W其实就是每个词的词向量，是可训练的），这个过程和NNLM模型的查表的功能是一致的。将得到的矩阵通过softmax得到最终预测的结果。Wordvec有两种结构（见图1），一个是利用上下文来预测中间的词汇，称之为CBOW，另一个是利用中间的词汇来预测上下文的词汇，称为Skip-gram。

图1 wordvec中两种模型结构

1.3 Embedding 较新模型（ELMO、GPT、BERT、XLNET简介）（选读）

word2vec不能解决一词多义的问题，因为这个模型是静态的，词向量被训练好之后就固定下来了。苹果电脑和吃苹果中的苹果会有一样的向量表达。而这显然是不合理的。

ELMO尝试解决这个问题，这个模型使用了两层bi-lstm，这里的双向分别对上文和下文进行编码，任务和CBOW是一样也是使用n个上下文去预测中间词。在最终计算一个词向量时，会将最下面的单词特征向量和上两层bi-lstm中得到的上下特征进行加和。在最终应用模型的时候，会先计算在当前输入下词向量的表达再放进任务模型中。
ELMO这种在编码时直接将词上下文加进向量表达的方式很好的解决了一词多义的问题

GPT做了什么呢？这个模型采用了和ELMO类型的训练过程，只是将其中的bi-lstm改成了transformer，但是只使用了上文信息来预测单词，没有使用下文

BERT是怎么做的呢，BERT和GPT的主要区别在于使用双向的语言模型，同时考虑了上下文对文本的影响

最近又新出了一个 XLNET，效果较BERT又有了很大的提升，他是怎么做的呢

BERT在预训练中使用了mask机制，将15%的单词替换成mask，在这些mask单词中只有80%被替换成了【mask】，10%被随机替换成另一个单词，10%的单词不变

由于在正式的任务中不会有带有mask的数据，会对应用效果造成一定的影响。XLNET主要的贡献是解决了mask带来的负面影响。XLNET具体做法：在预训练阶段引入 Permutation Language Model，在预测单词A的时候，将其他几个单词的顺序随机打乱，这样就可以利用上下文的信息。具体实现是通过attention的掩码机制，将其他被放到目标单词下文中的单词隐藏掉，因此XLNET中没有明显的mask，回避掉了mask的负面影响，但其实使用 Attention实现了同样的功能。

1.4 Embedding流派划分

预训练语言表达主要有两个流派，一个是非监督的基于特征的方法，之前提到的CBOW就是这样的方法，模型的输出是词向量，可以直接放入下游模型中。 ELMO也是属于这一流派的模型，但是没有可以直接拿来用的词向量。使用的时候，需要将待处理的文本，预训练词向量（如Word2vec），前人训练好的模型参数和结构一起放入ELMO模型中得到新的文本向量表达，这个新的向量表达可以很好的区分同一个词在不同语境中的不同含义。后续就可以将这个新的向量表达直接放入下游任务模型中去使用了。

另一个流派是fine-tuning方法，也就是微调。这个方法的代表模型是GPT和BERT，该类模型的优点是可以在预训练阶段训练尽可能复杂的模型，尽可能多的数据，在微调阶段只需要根据任务重新学习部分参数就可以达到比较高的准确率。这个方法是从图像领域中借鉴过来的。