词向量：ELMo

作者: jerrychenly | 来源:发表于2019-08-13 12:00 被阅读0次

词向量：ELMo
ELMo词向量
elmo 实验心得及elmo个人理解
动态词向量算法 — ELMo
词向量与ELMo模型
词向量技术-从word2vec到ELMo
nlp中的词向量对比：word2vec/glove/fastTe
讲座笔记|词向量与ELMo模型
【论文笔记】Deep contextualized word r
ELMO,BERT,GPT|深度学习（李宏毅）（十）

ELMo（Embedding from Language Models），出自NAACL 2018的一篇论文"Deep contextualized word representations"。ELMo的精髓提现在以下三个方面：

Contextual：The representation for each word depends on the entire context in which it is used.
Deep：The word representations combine all layers of a deep pre-trained neural network.
Character based：ELMo representations are purely character based, allowing the network to use morphological clues to form robust representations for out-of-vocabulary tokens unseen in training.

前面我们介绍过Word2Vec和GloVe，他们都有一个共性：语言模型训练完成后，每个词的向量表示就定下来了。不管下游任务是什么场景，词向量都是这个。这种方式有一个很明显的缺陷，没办法根据具体的上下文场景区分多义词。

ELMo较前两者最大的进步是能够根据上下文区分多义词。其思想是：先训练语言模型得到一个初步的词向量，这时的词向量也是混合多种词义的。在实际使用过程中，再根据具体的上下文来做调整，经过调整后的词向量更能表示当前上下文的含义，从而解决多义词的问题。所以现在看来，ELMo是根据当前上下文对词向量动态调整的策略。

ELMo分两个阶段：第一阶段是通过语言模型进行预训练；第二阶段是在做下游任务时，从预训练的网络中提取对应词的网络各层词向量作为新特征补充到任务中。

下图展示了预训练的过程（网络“盗图”）。

1.png

预训练网络结构采用两层双向LSTM。上图左边的前向双层LSTM表示正向编码器，输入的是从左到右顺序的除预测词 $W_{i}$ 外的上文；右边的后向双层LSTM表示反向编码器，输入的是从右到左逆序的除预测词 $W_{i}$ 外的下文。

给定N个token（ $t_{1}, t_{2},...,t_{N}$ ），前向计算通过给定前面的k-1个位置的token序列计算第k个token的出现概率：
$p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{1}, t_{2}, \ldots, t_{k-1}\right)$
后向计算类似：
$p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{k+1}, t_{k+2}, \ldots, t_{N}\right)$
biLM训练目标就是最大化：
$\sum_{k=1}^{N}\left(\log p\left(t_{k} | t_{1}, \ldots, t_{k-1} ; \Theta_{x}, \vec{\Theta}_{L S T M}, \Theta_{s}\right)+\log p\left(t_{k} | t_{k+1}, \ldots, t_{N} ; \Theta_{x}, \overleftarrow \Theta_{L S T M}, \Theta_{s}\right)\right)$
ELMo对于每个token通过一个L层的biLM计算出2L+1个表示：
$R_{k}=\left\{x_{k}^{L M}, \vec{h}_{k, j}^{L M}, \overleftarrow h_{k, j}^{L M} | j=1, \ldots, L\right\}=\left\{h_{k, j}^{L M} | j=0, \ldots, L\right\}$
其中 $x_{k}^{L M}$ 是对token进行直接编码的结果（字符级CNN编码）， $\mathbf{h}_{k, 0}^{L M}$ 代表 $x_{k}^{L M}$ 和 $h_{k, j}^{L M}=\left[\vec{h}_{k, j}^{L M} ; \begin{array}{l}{L M} \\ {k, j}\end{array}\right]$ ，是每个biLSTM层输出的结果。

实际应用中将ELMo中所有层的输出R压缩成单个向量， $E L M o_{k}=E\left(R_{k} ; \Theta_{\epsilon}\right)$ ，最简单的压缩方法是取最上层的结果作为token的表示：
$E\left(R_{k}\right)=h_{k, L}^{L M}$
更通用的做法是通过一些参数来联合各层的信息：
$E L M o_{k}^{t a s k}=E\left(R_{k} ; \Theta^{t a s k}\right)=\gamma^{t a s k} \sum_{j=0}^{L} s_{j}^{t a s k} h_{k, j}^{L M}$
其中 $\mathbf{s}^{\operatorname{task}}$ 是softmax的结果， $\gamma$ 是任务相关的scale参数。 $\gamma$ 在不同任务中取不同的值效果会有较大差异，在SQuAD中设置为0.01取得的效果要好于设置为1时。

文中提到的预训练的语言模型用了两层biLM，对token进行上下文无关的CNN字符级编码，然后将三层的输出scale到1024维，最后对每个token输出3个1024维的向量表示。之所以将三层的输出都作为token的embedding表示是因为实验已经证实不同层的输出信息对于不同任务的作用是不同的，也就是不同层的输出捕捉到的token的信息是不同的。

网络结构确定好，利用大量语料做语言模型任务就能预训练好这个网络。在训练好的网络上输入一个新句子，句中每个词都能得到对应的三个Embedding：最低层是词的word embedding；上一层是第一层双向LSTM中对应词位置的Embedding，这层编码词的句法信息更多一些；再上一层是第二层LSTM中对应单词位置的Embedding，这层编码单词的语义信息更多一些。

前面说那么多都是预训练阶段，下面说一说ELMo在下游任务中的使用。拿QA问题举例，对于问句Q，先把Q作为前面预训练好的网络的输入，句中每个词能获得对应的三个embedding，然后根据权重（可以通过学习得到）来把它们合成一个embedding。然后把整合后的embedding作为句子Q在自己任务中对应词的输入即可。在QA问题中，对于回答句子A的处理也是类似。

因为ELMo给下游提供的是每个词的特征形式，所以这一类预训练的方法被称为"Feature-based Pre-Training"。

下图是ELMo在一些NLP任务中的表现：

2.png

可以看到在使用ELMo后，各个任务都有不同程度性能提升。上图中的NLP任务覆盖范围比较广，包含句子语义关系判断，分类任务，阅读理解等多个领域。这也说明ELMo的适用范围比较广，普适性强。

参考：
https://allennlp.org/elmo
https://arxiv.org/pdf/1802.05365.pdf
https://www.jiqizhixin.com/articles/2018-12-10-8

词向量：ELMo
ELMo（Embedding from Language Models），出自NAACL 2018的一篇论文"De...
ELMo词向量
ELMo词向量出自于论文《Deep contextualized word representations》什么...
elmo 实验心得及elmo个人理解
1. 名词：ELMO：哈工大LTP 开发的动态词向量。问题一：何为动态词向量：普通的词向量，是静态的，也就是一...
动态词向量算法 — ELMo
传统的词向量模型，例如 Word2Vec 和 Glove 学习得到的词向量是固定不变的，即一个单词只有一种词向量，...
词向量与ELMo模型
简介：词向量作为一种预训练模型在NLP领域应用非常广泛，词向量可以看作是表达词的语义。在这个领域，一个重要的挑战...
词向量技术-从word2vec到ELMo
本文关键词：NLP、词向量、word2vec、ELMo、语言模型 0. 前言 "词和句子的嵌入已成为所有基于深度学...
nlp中的词向量对比：word2vec/glove/fastTe
本文以QA形式对自然语言处理中的词向量进行总结：包含word2vec/glove/fastText/elmo/be...
讲座笔记|词向量与ELMo模型
整理自贪心科技NLP公开课，感谢分享！侵删第一讲：词向量与ELMo模型李文哲老师预习1：最大似然估计最大似...
【论文笔记】Deep contextualized word r
本文主要用于记录华盛顿大学计算机院发表于2018年的一篇论文。该论文主要提出了ELMO词向量模型。本笔记主要为方便...
ELMO,BERT,GPT|深度学习（李宏毅）（十）
一、Embeddings from Language Model(ELMO) 词嵌入的局限性之前讲过的词嵌入具有...