论文阅读_清华ERNIE

论文阅读_清华ERNIE

作者: xieyan0811 | 来源:发表于2022-07-01 23:25 被阅读0次

论文阅读_清华ERNIE
知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注
ERNIE 3.0 Titan：最强中文预训练模型
【ERNIE: Enhanced Language Repres
ERNIE
通过改造BERT实现ERNIE并比较两者差异
ERNIE代码解析
2018-12-01关于如何写论文
论文查重是怎么样进行的知网论文查重如何
论文阅读

英文题目：ERNIE: Enhanced Language Representation with Informative Entities
中文题目：ERNIE: 使用信息实体增强语言表示
论文地址：https://arxiv.org/pdf/1905.07129v3/n
领域：自然语言处理
发表时间：2019
作者：Zhengyan Zhang，清华大学
出处：ACL
被引量：37
代码和数据：https://github.com/thunlp/ERNIE
阅读时间：2002.06.25

读后感

2019年前后清华和百度都提出了名为ERNIE的模型，名字相同，方法不同。清华的ERNIE把知识图融入了文本的向量表示，也叫KEPLM，想法比较有意思，模型改进效果：使用少量数据训练模型时，ERNIE比其它模型效果更好。从技术角度，它示范了整合异构数据的方法。

介绍

本文提出ERNIE，它是结合知识图和大规模数据的预训练语言模型。引入知识图面临两个重要挑战：

如何在文本表示中提取和表示知识图中的结构
整合异构数据：将预训练模型表示和知识图表示映射到同一向量空间

ERNIE的解决方法如下：

识别文本中提到的命名实体，然后将实体与知识图中对应的实体对齐，利用文本语义作为知识图的实体嵌入，再使用TransE方法学习图的结构。
在预训练语言模型方面，也使用类似BERT的MLM方法，同时利用对齐方法，找知识图中的实体做遮蔽；聚合了上下文和知识图共同预测token和实体。

方法

定义符号

token（操作的最小单位：一般是字或词）使用 {w1,...,wn} 表示，对齐后的实体用 {e1,..., em} 表示。需要注意m与n一般个数不同，实体可能包含不只一个字或词。定义V为包含所有token的词表，知识图中的所有实体用E表示。用函数f(w)=e表示对齐函数，文中使用实体中的第一个token对齐。

模型结构

模型结构如图-2所示：

模型结构包含两块，T-Encoder用于提取token相关的文本信息；K-Encoder整合了扩展的图信息，将异构数据转换到统一的空间中。

首先，将利用token {w1,..., wn} 的词嵌入、段嵌入、位置嵌入，代入 T-Encoder 层，计算其语义特征：

T-Encoder类似普通的BERT，它由N个Transformer层组成，用粗体的 {e1,...., em} 表示通过 TransE 预训练的图嵌入，将粗体的w和e代入K-Encoder，整合异构数据，生成输出 wo和eo：

wo和eo将被用于下游任务。

知识编码

从图-2的右半部分可以看到，K-Encoder一般包含M层，以第 i 层为例，输入是第 i-1 层的 w 和 e，分别使用两个多头的self-attention。

对于token：wj 和与它对齐的实体：ek=f(wj)，使用以下方法融合数据：

这里的 hj 是内部隐藏层，它结合了token和实体表示，σ是非线性激活函数，这里使用GELU。对于找不到对应实体的token，无需融合：

第 i 层简化表示如下：

利用预训练模型注入知识

预训练时，随机遮蔽对齐的 token-entity，让模型预测对应的多个token。这个过程类似自编码器dEA。知识图中可能包含非常多的实体，做softmax时计算量非常大，而我们只关注系统需要的实体，以减少计算量。在给定token序列和实体序列的条件下，定义对齐分布计算：

它计算在w条件下，对齐实体为ej的概率，式(7)用于计算交叉熵损失函数。
在5%的情况下，将实体替换成其它实体，以训练模型纠正token与实体对齐的错误；在15%的情况下，遮蔽token与实体间的对齐，以训练模型纠正没有识别到对齐的情况；其它情况保持对齐关系，学习token与实体间的关系。

训练的损失函数综合了dEA（自编码），MLM（遮蔽）和NSP（句子顺序）的损失。

针对具体任务精调模型

如图-3所示：

对于一般任务，将编码后的词嵌入代入下游模型即可。对于知识驱动的任务，比如关系分类，或者预测实体类型，使用以下方法精调。

对于关系分类问题，最直接的方法是在输出的实体向量之后加池化层，串联实体对，然后送入分类器。而文中提出的方法如图-3所示，它在头实体和尾实体的前后分别加了标签，标签的效果类似于传统关系分类中的位置嵌入，仍然使用CLS来标记类别。

预测实体类型是关系分类的简化版，也使用ENT标签来引导模型结合上下文信息和实体信息。

实验

清华的ERNIE是针对英文训练的模型，实验证明，额外的知识可以帮助模型充分利用小的训练数据，这对很多数据有限的任务非常有用。

相关文章

论文阅读_清华ERNIE
英文题目：ERNIE: Enhanced Language Representation with Informa...
知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注
©NLP论文解读 |杨健论文标题： ERNIE:Enhanced Language Representation...
ERNIE 3.0 Titan：最强中文预训练模型
百度|ERNIE 3.0 Titan:探索更大规模的知识增强型语言理解和生成预训练论文标题：ERNIE 3.0 T...
【ERNIE: Enhanced Language Repres
这篇文章提出了一个语言模型ERNIE。（我怎么记得百度也有一个这个名字的，这篇是清华的） BERT等PreLM很少...
ERNIE
主题：根据额外的信息输入（实体），增强语言表征能力。利用大规模的文本语料库以及KG图，训练得到一个增强的语言表示模...
通过改造BERT实现ERNIE并比较两者差异
作者：WipenHan 由于BERT与ERNIE的预训练数据存在非常大的差异，因而无法知晓ERNIE在5个NLP任...
ERNIE代码解析
©原创作者|疯狂的Max ERNIE代码解读考虑到ERNIE使用BRET作为基础模型，为了让没有基础的NLPer...
2018-12-01关于如何写论文
如何写论文---来自清华大学NLP教授
论文查重是怎么样进行的知网论文查重如何
论文查重是怎么样进行的知网论文查重如何 1、知网查重入口本科论文查重由北京大学和清华大学联手开发的论文检测查...
论文阅读
2013 NIPS - More Effective Distributed ML via a Stale Syn...

网友评论

本文标题：论文阅读_清华ERNIE

本文链接：https://www.haomeiwen.com/subject/fyehbrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|论文阅读_清华ERNIE|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！