1. 简称
论文《Deep contextualized word representations》简称ELMo,作者Matthew E. Peters(Allen Institute for Artificial Intelligence),经典的预训练论文。
2. 摘要
我们引入了一种新型的深度上下文化的单词表示,它同时建模:
- 单词使用的复杂特征
(例如,语法和语义)
。 - 这些使用如何在语言上下文中变化
(即,建模一词多义)
。
我们的词向量是深度双向语言模型(BiLM)的内部状态的学习函数,该模型是在大型文本语料库上预训练的。
我们表明,这些表示可以很容易地添加到现有模型中,并显著提高了六个具有挑战性的NLP问题的技术水平,包括问题回答、文本蕴涵和情感分析。
我们还提出了一项分析,表明暴露预先训练的网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。
3. 核心
与最广泛使用的单词嵌入(Glove)不同,Elmo单词表示是整个输入句子的功能,如本节所述。
ELMO Architecture
3.1 Bidirectional language models
给定N个令牌的序列,一个前向语言模型通过对给定历史的令牌的概率建模来计算序列的概率:
最近最先进的神经语言模型计算上下文无关令牌表示(通过令牌嵌入或字符上的CNN),然后将其通过层的前向LSTM。在每个位置,每个LSTM层输出上下文相关的表示,其中.顶层LSTM输出用于预测具有Softmax层的下一个令牌。
后向LM类似于前向LM,不同之处在于它反向运行在序列上,在给定未来上下文的情况下预测前一个令牌:
它可以以类似于前向LM的方式来实现,其中层深度模型中的每个后向LSTM层产生表示给定(t_{k+1},.,t_N)的。
biLM组合了前向和后向LM。我们的公式共同最大化了前向和后向的对数可能性:
我们将令牌表示()和Softmax层()的参数绑定在前向和后向方向上,同时在每个方向上保持LSTM的单独参数。
3.2 ELMo
ELMO是biLM中中间层表示的任务特定组合。对于每个令牌,一个层biLM计算表示的集合。
这里是令牌层和。
要包含在下游模型中,Elmo将中的所有层折叠为单个矢量,。在最简单的情况下,Elmo只选择顶层,。如TagLM(Peters等人,2017)和Cove(Mc-Cann等人,2017)。
更一般地,我们计算所有biLM层的任务特定权重:
在(1)中,是softmax归一化权重,并且标量参数允许任务模型缩放整个ELMO向量。对于辅助优化过程具有实际的重要性。考虑到每个BiLM层的激活具有不同的分布,在某些情况下,在加权之前将层归一化(Ba等,2016)应用于每个BiLM层也是有帮助的。
4. 实验
六组基准NLP任务中的性能表1显示了ELMo在六组基准NLP任务中的性能。在考虑的每项任务中,只需添加ELMo即可建立新的最新结果,相对于强大的基础模型而言,相对误差的减少范围为6-20%。这是跨多种集合模型架构和语言理解任务的非常普遍的结果。
biLM的表示可以捕获哪些信息?样本效率和可视化学习权重
- 本篇论文主要贡献:提出了预训练的词表征模型,在多个任务上大大提高了下游模型的效果。
- 本文提出的模型缺点:LSTM在提取特征方面偏弱,而且速度比较慢。
- 后来改进模型:使用transformer训练语言模型。
- 额外关注点:Char Embedding=CNN Char Embedding + LSTM Char Embedding
5. 重点论文
- Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. Semi-supervised sequence tagging with bidirectional language models. In ACL.
- Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. Learned in translation: Contextualized word vectors. In NIPS 2017.
- Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2015. Character-aware neural language models. In AAAI 2016.
- RupeshKumarSrivastava,KlausGreff,andJu ̈rgen Schmidhuber. 2015. Training very deep networks. In NIPS.
- Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph reading comprehension. CoRR abs/1710.10723.
- Qian Chen, Xiao-Dan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang, and Diana Inkpen. 2017. Enhanced lstm for natural language inference. In ACL.
- Yichen Gong, Heng Luo, and Jian Zhang. 2018. Natural language inference over interaction space. In ICLR.
- Luheng He, Kenton Lee, Mike Lewis, and Luke S. Zettlemoyer. 2017. Deep semantic role labeling: What works and what’s next. In ACL.
- Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013, October 17). Distributed Representations of Words and Phrases and their Compositionality. arXiv.org.
6. 代码编写
本文源码地址: http://allennlp.org/elmo
# 后续追加代码分析
参考文献
- Peters, M. E., Neumann, M., Iyyer, M., 0001, M. G., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep Contextualized Word Representations. Naacl-Hlt.
网友评论