美文网首页
[NLP论文笔记] Deep contextualized wo

[NLP论文笔记] Deep contextualized wo

作者: lzhenboy | 来源:发表于2018-12-30 21:35 被阅读0次

Deep contextualized word representations(ELMo)阅读笔记

本文是对论文《Deep contextualized word representations》(ELMo)的阅读笔记与总结,是对文章中技术细节的记录,也是对文章思想的一点总结。

paper: Deep contextualized word representations

1. Motivation

词向量在目前NLP技术发展和应用中具有重要作用,高质量的词向量对下游任务的效果至关重要。
传统word2vec等模型对一个词的表示是固定的,一成不变的,但现实场景中,同样的词在不同语境中往往表达不同的含义,为此,ELMo应运而生。ELMo(Embeddings from Language Models)是一种动态的,语境化的词向量表示方法,可以根据上下文语境来生成相应词的向量表示。
ELMo通过深度双向语言模型(biLM)进行训练,主要解决了两个问题:
(1) 学习词汇用法的复杂特性,如语法和语义;
(2) 学习词汇不同语境下的一词多义性;

2. Introduction

2.1 ELMo词向量表示理念

与传统词向量用固定向量的表示不同,ELMo是一种动态词向量表示方法,其最终训练得到一个语言模型。当需要文本s中某个词w的词向量表示时,ELMo通过将s作为输入,得到文本的向量表示,继而获得词w在文本s语境下的词向量表示。
ELMo模型从大规模语料上训练得到的深度双向语言模型(deep biLM)的内部状态学习得到,因此,ELMo的词向量表示是深度的,是biLM内部各层状态的线性组合,而非仅仅取LSTM的最后一层。

2.2 ELMo理念的物理意义

ELMo认为,通过联合biLM的各层内部状态来表示词向量可以表达词语更为丰富的信息,模型底层隐状态表达词语的语法信息(eg:适用于词性标注任务),而上层隐状态则捕捉了词语的语义信息(eg:适用于词义消歧任务)。
大量实验证明,ELMo在多种NLP任务中都获得极好的效果;另外,前人的工作以及论文最后对ELMo与GoVe的分析则证明,词向量的深度表示比仅利用LSTM的最后一层的效果更好。

3. Related work

针对传统词向量是固定的,与上下文语境无关的缺点,先前的工作多通过两种方式来解决:
(1) 通过引入字符级(subword)信息丰富词向量表达;
(2) 学习每个单词不同含义的独立向量;
ELMo也利用了字符卷积(Character-Convolutions)引入字符级信息,并同时结合了深度双向语言模型的各层隐状态来丰富词向量表达。

P.s.:基于字符的模型不仅能够通过引入字符级信息丰富词向量表达,也能够在很大程度上解决NLP领域的OOV(Out-Of-Vocabulary)问题。

其他语境化词向量表示的代表性的工作为:
(1) context2vec,论文原文:context2vec: Learning generic context embedding with bidirectional lstm;
(2) CoVe,论文原文:Learned in translation: Contextualized word vectors;

未完待续......

相关文章

网友评论

      本文标题:[NLP论文笔记] Deep contextualized wo

      本文链接:https://www.haomeiwen.com/subject/ytrvkqtx.html