上期我们介绍了2020年知识图谱最新权威综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知识图谱补全部分,本期我们将一起学习这篇论文的实体发现部分。
论文地址:
https://arxiv.org/pdf/2002.00388.pdfarxiv.org
1 实体发现
本节将基于实体的知识获取区分为若干细分任务,即实体识别,实体消歧、实体类型和实体对齐。我们称它们为实体发现,因为它们都在不同的集合下探索实体相关的知识。
1.1 实体识别
实体识别或命名实体识别(NER)是一种在文本中标记实体的任务,当它关注于特定的命名实体时。手工制作的特征,如大写模式和特定语言资源,如地名录,在许多文献中都有应用。最近的工作利用squence-to-squence结构,例如,LSTM-CNN用于学习字符级和单词级特征以及编码部分词汇匹配。Lample等人通过叠加LSTM层和CRF层,即LSTM-CRF和Stack-LSTM。近年来,MGNER提出了一个集成框架,该框架具有不同粒度的实体位置检测和对嵌套和非重叠命名实体的基于注意力机制的实体分类。
1.2 实体分类
实体分类包括粗粒度分类和细粒度分类,而后者使用树结构的类型类别,通常被视为多类别和多标签分类。为了减少标签噪声,PLE着重于正确的类型识别,提出了一种基于异质图的部分标签嵌入模型,用于表示实体提及、文本特征和实体类型及其关系。为了解决日益增长的类型集和噪声标签,Ma等人提出了一种基于原型驱动的分层信息标签嵌入方法用于zero-shot细粒度命名实体分类。
1.3 实体消歧
实体消歧或实体链接是一个统一的任务,它将提及的实体和知识图谱中的相应实体链接起来。例如,爱因斯坦在1921年获得诺贝尔物理学奖。这句话中的实体提及“爱因斯坦”应该与知识图谱中的实体爱因斯坦联系起来。目前流行的端到端学习方法都是通过实体的表示学习来实现的,例如DSRM用于实体语义关系的建模,EDKate用于实体和文本的联合嵌入。Ganea和Hofmann提出了一种基于局部上下文窗口的注意力神经模型,用于实体表示学习和模糊实体的可微消息传递。Le和Titov将实体之间的关系视为潜在变量,开发了一个端到端的神经架构,具有关系和
mention-wise的规范化。
1.4 实体对齐
前面提到的任务涉及到从文本或单个知识图谱中发现实体,而实体对齐旨在融合异构知识图谱中的知识。给定E1和E2为两个不同知识图谱的两个不同实体集,实体对其是寻找一个对齐集
其中实体e1和实体e2具有等价关系。在实际中,如下图的左框所示,给出一个对齐种子的小集合(即,出现在不同的知识图谱中的同义实体)以开始对齐处理过程。
基于嵌入表示的对齐需要计算一对实体的嵌入表示之间的相似性。IPTransE在一个联合嵌入框架下将实体投影到一个统一的表示空间中,包括通过对齐的翻译模型:
线性变换模型:
参数共享:
为了解决迭代对齐中的误差积累问题,BootEA提出了一种增量学习的bootstrapping方法,以及一种用于检查新标记对齐的编辑技术。
实体的附加信息也可以被利用起来,例如,JAPE捕捉跨语言属性之间的相关性,KDCoE通过共同训练嵌入多语言实体描述,MultiKE学习实体名称、关系和属性的多个视图,与字符属性嵌入对齐。
后期,我们还会对这篇综述的其它部分进行解读。
往期精选:
如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“,也欢迎关注同名微信公众号“人工智能遇上知识图谱”,让我们一起学习并交流讨论人工智能与知识图谱技术。
网友评论