主题:根据额外的信息输入(实体),增强语言表征能力。利用大规模的文本语料库以及KG图,训练得到一个增强的语言表示模型。
问题:将额外的知识加入语言表达模型,有两个关键问题:1. 结构化知识的编码:如何对知识进行编码;2. 异质信息融合:语言模型的预训练过程与知识的表示过程不同,因此是单独的向量,不同的语义空间。因此,需要对两者进行融合。
思路:1)知识(实体)的提取、对齐、编码 :transE算法对KG图进行编码;将实体信息作为ERNIE模型的输入; 2)设计不同的训练目标:以MLM、NSP、实体对齐三个目标为任务进行预训练。
模型架构:1)实体信息作为额外输入;2)T-encoder、K-encoder分别对语义和知识进行编码。其中T-encoder 负责捕获基本的语法及句法信息;K-encoder负责将额外的知识信息集成到底层文本信息。2.1 )T-encoder 主要结构:以token-embedding、position-embedding、segment-embedding为输入,经过多层的双向transformer编码器。2.2)信息融合K-encoder:整体以T-encoder的输出 和 entity-embedding输入(Trans训练得到)为输入。架构由堆叠的聚合器构成,聚合器输入输出均为token-input和entity-input。对于第i个聚合器,以 i-1个聚合器输出的token-embedding、entity-embedding为输入。两个embedding分别经两个multi-head 。信息融合层:entity的信息,只加到对应的首个token上,再分别得到两者的embedding。
pre-triain任务设计:随机屏蔽一些token到entity的对齐,需要模型对实体进行预测。由于预测所有实体的量级较大,因此每次只需要从给定实体中进行预测。总的loss =deA + MLM +NSP
pre-triain训练方式:考虑到实体对齐可能会出现错误。因此,训练过程中,1)5%的时间,对于给定的实体对齐,用随机的实体进行替换,解决对齐错误问题;2)15%的时间,屏蔽部分的对齐关系。解决对齐不足问题;3)剩余80%时间,对齐正常。
fine-tune任务设计:1)常见NLP任务:将CLS的嵌入作为输入进行预测;2)关系分类任务:对实体对儿的关系进行预测。加入[HD]、[TL]来标记头实体和尾实体,类似于在关系分类任务中加入实体的position信息。但最终以[CLS]作为输入进行预测; 3)实体类型预测任务:为实体的头和尾加入[ENT]标记。
实验:
网友评论