ERNIE

作者: 吹洞箫饮酒杏花下 | 来源:发表于2021-04-28 20:59 被阅读0次

ERNIE
通过改造BERT实现ERNIE并比较两者差异
ERNIE 3.0 Titan：最强中文预训练模型
论文阅读_清华ERNIE
ERNIE代码解析
知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注
【ERNIE: Enhanced Language Repres
ERNIE预览：百度知识增强语义表示模型ERNIE
一文读懂最强中文NLP预训练模型ERNIE
拥有威士忌，你便拥有了全世界

主题：根据额外的信息输入（实体），增强语言表征能力。利用大规模的文本语料库以及KG图，训练得到一个增强的语言表示模型。

问题：将额外的知识加入语言表达模型，有两个关键问题：1. 结构化知识的编码：如何对知识进行编码；2. 异质信息融合：语言模型的预训练过程与知识的表示过程不同，因此是单独的向量，不同的语义空间。因此，需要对两者进行融合。

思路：1）知识（实体）的提取、对齐、编码：transE算法对KG图进行编码；将实体信息作为ERNIE模型的输入； 2）设计不同的训练目标：以MLM、NSP、实体对齐三个目标为任务进行预训练。

模型架构：1）实体信息作为额外输入；2）T-encoder、K-encoder分别对语义和知识进行编码。其中T-encoder 负责捕获基本的语法及句法信息；K-encoder负责将额外的知识信息集成到底层文本信息。2.1 )T-encoder 主要结构：以token-embedding、position-embedding、segment-embedding为输入，经过多层的双向transformer编码器。2.2）信息融合K-encoder：整体以T-encoder的输出和 entity-embedding输入（Trans训练得到）为输入。架构由堆叠的聚合器构成，聚合器输入输出均为token-input和entity-input。对于第i个聚合器，以 i-1个聚合器输出的token-embedding、entity-embedding为输入。两个embedding分别经两个multi-head 。信息融合层：entity的信息，只加到对应的首个token上，再分别得到两者的embedding。

pre-triain任务设计：随机屏蔽一些token到entity的对齐，需要模型对实体进行预测。由于预测所有实体的量级较大，因此每次只需要从给定实体中进行预测。总的loss =deA + MLM +NSP

pre-triain训练方式：考虑到实体对齐可能会出现错误。因此，训练过程中，1）5%的时间，对于给定的实体对齐，用随机的实体进行替换，解决对齐错误问题；2）15%的时间，屏蔽部分的对齐关系。解决对齐不足问题；3）剩余80%时间，对齐正常。

fine-tune任务设计：1）常见NLP任务：将CLS的嵌入作为输入进行预测；2）关系分类任务：对实体对儿的关系进行预测。加入[HD]、[TL]来标记头实体和尾实体，类似于在关系分类任务中加入实体的position信息。但最终以[CLS]作为输入进行预测； 3）实体类型预测任务：为实体的头和尾加入[ENT]标记。

实验：