题目:LUKE: Deep Contextualized Entity Representations with
Entity-aware Self-attention(EMNLP 2020)
摘要:作者提出的模型是在BERT的MLM的基础上使用一种新的预训练任务来训练的。这项任务涉及到预测从维基百科的大型实体注释语料库中检索出来的随机隐藏的单词和实体。作者还提出了一种实体感知的自我注意机制,它是transformer中的自我注意机制的扩展,并在计算注意力分数时考虑了token(单词或实体)的类型。
介绍(主要贡献):
1.作者提出了一种新的专门用于处理与实体相关的任务的上下文表示方法LUKE(Language Understanding with Knowledge-based Embeddings)。LUKE利用从维基百科中获得的大量实体注释语料库,预测随机mask的单词和实体。
2.作者提出了一种实体感知的自我注意机制,它是对transformer原有的注意机制的有效扩展,该机制在计算注意力分数时考虑到了标记(单词或实体)的类型。
3.LUKE是以Roberta作为基础的预训练模型,并通过同时优化MLM的目标和我们提出的任务进行模型的预训练。并在5个流行的数据集上获得了最先进的结果。
模型:
1.模型的输入表示
- Token embedding:如上图,A代表单词嵌入表示,BU是实体嵌入表示的矩阵分解之后的表示(疑问:如上例所示,Los_Angeles,原句中的两个词怎么嵌入?????)
- Position embedding:单词的位置嵌入与bert一样,不做赘述,由多个单词组成的实体的位置嵌入是通过相应位置嵌入的平均计算得来的
- Entity type embedding:表示token是一个实体,由向量e表示
2.实体感知的self-attention
- x是上一步3个嵌入相加的结果,作为transformer的输入,y是相应的输出,Q、K、V仍然是查询、键、值矩阵。因为LUKE模型中有两种不同类型的token,分别是word和entity,所以计算ei,j时查询矩阵有所不同。(疑问:怎么来的,不同的查询矩阵,是训练出来的 ?????)
3.预训练任务
-
为了对LUKE进行预训练,我们使用了传统的MLM和一个新的预训练任务,它是MLM的扩展,用来学习实体表示。特别地,我们将维基百科中的超链接视为实体注释,并使用从维基百科检索到的大型实体注释语料库来训练模型。形式上,通过对词汇表中的所有实体应用softmax函数来预测mask掉的实体:
实验(主要关注命名实体识别的实验,数据集:CoNLL-2003):
消融实验:
结论:
在本文中,作者提出了一种新的基于transformer的预先训练的单词和实体的上下文表示LUKE。LUKE使用一种新的实体感知自我注意机制,实验证明了它在各种实体相关任务中的有效性。未来的工作包括将LUKE应用于特定领域的任务,例如生物医学和法律领域的任务。
网友评论