美文网首页
论文-Deep contextualized word repr

论文-Deep contextualized word repr

作者: 魏鹏飞 | 来源:发表于2019-11-08 16:47 被阅读0次

    1. 简称

    论文《Deep contextualized word representations》简称ELMo,作者Matthew E. Peters(Allen Institute for Artificial Intelligence),经典的预训练论文。

    2. 摘要

    我们引入了一种新型的深度上下文化的单词表示,它同时建模:

    1. 单词使用的复杂特征(例如,语法和语义)
    2. 这些使用如何在语言上下文中变化(即,建模一词多义)

    我们的词向量是深度双向语言模型(BiLM)的内部状态的学习函数,该模型是在大型文本语料库上预训练的。

    我们表明,这些表示可以很容易地添加到现有模型中,并显著提高了六个具有挑战性的NLP问题的技术水平,包括问题回答、文本蕴涵和情感分析。

    我们还提出了一项分析,表明暴露预先训练的网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。

    3. 核心

    与最广泛使用的单词嵌入(Glove)不同,Elmo单词表示是整个输入句子的功能,如本节所述。


    ELMO Architecture
    3.1 Bidirectional language models

    给定N个令牌的序列(t_1,t_2,.,t_n),一个前向语言模型通过对给定历史(t_1,.,t_{k−1})的令牌t_k的概率建模来计算序列的概率:
    p(t_1,t_2, ...,t_N)=\prod_{k=1}^Np(t_k|t_1,t_2,...,t_{k-1})\tag{3.1.1}

    最近最先进的神经语言模型计算上下文无关令牌表示x_k^{LM}(通过令牌嵌入或字符上的CNN),然后将其通过L层的前向LSTM。在每个位置k,每个LSTM层输出上下文相关的表示\vec{h}_{k,j}^{LM},其中j=1,.,L.顶层LSTM输出\vec{h}_{k,L}^{LM}用于预测具有Softmax层的下一个令牌t_{k+1}

    后向LM类似于前向LM,不同之处在于它反向运行在序列上,在给定未来上下文的情况下预测前一个令牌:
    p(t_1,t_2, ...,t_N)=\prod_{k=1}^Np(t_k|t_{k+1},t_{k+2},...,t_N)\tag{3.1.1}

    它可以以类似于前向LM的方式来实现,其中L层深度模型中的每个后向LSTM层j产生表示\xleftarrow[h]{}_{k,j}^{LM}给定(t_{k+1},.,t_N)的t_k

    biLM组合了前向和后向LM。我们的公式共同最大化了前向和后向的对数可能性:
    \sum_{k=1}^N(logp(t_k|t_1,...,t{k-1};\theta_x,\vec{\theta}_{LSTM},\theta_x)+logp(t_k|t_{k+1},...,t_N;\theta_x,\xleftarrow[\theta]{}_{LSTM},\theta_s))\tag{3.1.2}

    我们将令牌表示(\theta_x)和Softmax层(\theta_s)的参数绑定在前向和后向方向上,同时在每个方向上保持LSTM的单独参数。

    3.2 ELMo

    ELMO是biLM中中间层表示的任务特定组合。对于每个令牌t_k,一个L层biLM计算2L+1表示的集合。
    R_k=\{x_k^{LM},\vec{h}_{k,j}^{LM},\xleftarrow[h]{}_{k,j}^{LM}|j=1,...,L\} \\ =\{h_{k,j}^{LM}|j=0,...,L\} \tag{3.2.1}

    这里h_{k,0}^{LM}是令牌层和h_{k,j}^{LM}=[\vec{h}_{k,j}^{LM},\xleftarrow[h]{}_{k,j}^{LM}]

    要包含在下游模型中,Elmo将R中的所有层折叠为单个矢量,ELMo_k=E(R_k;\theta_e)。在最简单的情况下,Elmo只选择顶层,E(R_k)=h_{k,L}^{LM}。如TagLM(Peters等人,2017)和Cove(Mc-Cann等人,2017)。
    更一般地,我们计算所有biLM层的任务特定权重:
    ELMo_k^{task}=E(R_k;\theta^{task})=\gamma^{task}\sum_{j=0}^Ls_j^{task}h_{k,j}^{LM}\tag{3.2.2}

    在(1)中,s^{task}是softmax归一化权重,并且标量参数\gamma^{task}允许任务模型缩放整个ELMO向量。\gamma对于辅助优化过程具有实际的重要性。考虑到每个BiLM层的激活具有不同的分布,在某些情况下,在加权之前将层归一化(Ba等,2016)应用于每个BiLM层也是有帮助的。

    4. 实验

    六组基准NLP任务中的性能

    表1显示了ELMo在六组基准NLP任务中的性能。在考虑的每项任务中,只需添加ELMo即可建立新的最新结果,相对于强大的基础模型而言,相对误差的减少范围为6-20%。这是跨多种集合模型架构和语言理解任务的非常普遍的结果。

    biLM的表示可以捕获哪些信息?
    样本效率和可视化学习权重
    • 本篇论文主要贡献:提出了预训练的词表征模型,在多个任务上大大提高了下游模型的效果。
    • 本文提出的模型缺点:LSTM在提取特征方面偏弱,而且速度比较慢。
    • 后来改进模型:使用transformer训练语言模型。
    • 额外关注点:Char Embedding=CNN Char Embedding + LSTM Char Embedding

    5. 重点论文

    • Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. Semi-supervised sequence tagging with bidirectional language models. In ACL.
    • Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. Learned in translation: Contextualized word vectors. In NIPS 2017.
    • Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2015. Character-aware neural language models. In AAAI 2016.
    • RupeshKumarSrivastava,KlausGreff,andJu ̈rgen Schmidhuber. 2015. Training very deep networks. In NIPS.
    • Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph reading comprehension. CoRR abs/1710.10723.
    • Qian Chen, Xiao-Dan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang, and Diana Inkpen. 2017. Enhanced lstm for natural language inference. In ACL.
    • Yichen Gong, Heng Luo, and Jian Zhang. 2018. Natural language inference over interaction space. In ICLR.
    • Luheng He, Kenton Lee, Mike Lewis, and Luke S. Zettlemoyer. 2017. Deep semantic role labeling: What works and what’s next. In ACL.
    • Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013, October 17). Distributed Representations of Words and Phrases and their Compositionality. arXiv.org.

    6. 代码编写

    本文源码地址: http://allennlp.org/elmo

    # 后续追加代码分析
    

    参考文献

    1. Peters, M. E., Neumann, M., Iyyer, M., 0001, M. G., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep Contextualized Word Representations. Naacl-Hlt.

    相关文章

      网友评论

          本文标题:论文-Deep contextualized word repr

          本文链接:https://www.haomeiwen.com/subject/txtbbctx.html