介绍
英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding
中文题目:基于概率推理和语义嵌入的无监督知识图对齐
论文地址:https://arxiv.org/abs/2105.05596v1
领域:自然语言处理,知识图谱
发表时间:2021
作者:腾讯天衍实验室
出处:IJCAI(国际人工智能联合会议)
被引量:1
代码和数据:
https://github.com/qizhyuan/PRASE-Python
https://github.com/dig-team/PARIS
阅读时间:22.04.08
泛读
- 针对问题:实体对齐(不是本体对齐)
- 结果:效果优于之前模型
- 核心方法:提出PRASE,基于概率推理和语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。
- 难点:先需要了解一下PARIS模型
- 泛读后理解程度:70%
(看完题目、摘要、结论、图表及小标题)
精读
摘要
目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者的模型常常依赖有监督学习,缺乏恰当的推理,难以避免逻辑错误的映射;后者解决了推理问题,但较少使用图结构和实体上下文。本文致力于结合二者。
1. 介绍
实体对齐可用于把局部的知识图结合成更大的知识图,具体的工作是需要找到不同图中含义相同的实体、关系等。
图嵌入将图中实体关系等信息编码到低维空间,使其包含的语义信息作为进一步探索的工具。对齐问题的解决方法常常是:先将待对齐的知识图嵌入到一个向量空间中,然后通过计算向量距离或相似性来发现映射。
这些基于嵌入的模型常常需要一定数量的知识映射(对齐种子)来进行训练,而种子标注需要大量人力。种子的数量和抽样分布对对准性能有很大影响。而且先编码后映射的方法可能忽略整体性,从而导致映射错误。
使用逻辑推理或者字典映射,本体对齐方法是相对传统的技术,比如2012年的PARIS利用概率归因和字典映射方法,通过名字匹配一些初始特征之后,通过迭代概率推理来推断实体、关系的等价性。因此无需训练,不依赖种子,更高效和可扩展。但它在开发和利用图形结构和其他上下文信息方面较弱。
本文致力于结合上述两种模型,提出了无监督的迭代框架PRASE。其中的PA是概率推理模块(probablistic reasoning),SE是词嵌入(semantic embedding)模块。PR基于之前PARIS模型,SE用于捕捉图结构和实体的上下文,PR从SE处得到映射和实体嵌入。
本文主要贡献如下:
- 提出无监督的对齐框架PRASE,用迭代方法结合了两种模型
- 使用PARIS和不同的词嵌入模块实现模型
- 在多个数据集上达到比之前更好的效果
2. 预备知识
背景和相关工作
2.1 问题表述
设符号:E是边,R是关系,A是属性,V是属性值。将图定义为G=(E,R,A,V,TR,TA),其中TR指关系三元组,TA指属性三元组:
问题定义成对两个图G和G'中实体的对齐方法:
"≡"指的是两个实体指向现实世界中的同一对象。
2.2 PARIS方法
属性三元组和关系三元组类似,因此定义:
并且定义了关系的度量函数及其反向函数:
其中|.|表示集合的基数(集合中的元素数量),上述函数用于计算头实体和尾实体的唯一性。当F(r)=1时,说明其头实体是唯一的,请注意:F和F-1具有不变性,因此,可提前计算。
PARIS(2012年论文,用于对齐实例、关系、类,适用于大型图)可以交替计算实体映射和包含关系,不同图中的两个实体h和h'相等的概率P(h ≡h′),计算如下:
其中(h,r,t)是图中的三元组,式-2的大概意思是:在确定了尾实体相等的概率、关系r的逆函数F-1,以及r与r'包含关系的概率后,即可计算头实体h与h'是同一实体的概率。
其中P(r ⊆ r′)表示r是r'子集的概率:
式-3假设已知头实体和尾实体分别指向同一实体的概率,分母计算所有h,t,分子计算包含h,r,t的三元组。
可以看到计算P(r ⊆ r′)需要P(h ≡h′),而P(h ≡h′)又需要P(r ⊆ r′),二者相互依赖,因此需要迭代优化。一开始,P(r ⊆ r′)可被设置为一个很小的值,比如0.1;或者,当实体是属性时,如果文字描述相同则设为1,否则为0;更高级的方法是用实体间的编辑距离作为其评分。
在每次迭代时,式-2计算出了实体相等的概率,式-3又计算了关系的包含关系,迭代直至收敛。最终PARIS输出的是实体映射表记作 ̃YP,Po(e≡e‘),(e,e’)∈Yp,上标o表示输出。
2.3 基于嵌入的知识图对齐
基于嵌入的知识图对齐一般分两步:先学习词嵌入(如使用TransE或图神经网络),在不同图中使用同一向量空间编码,通过参数共享、参数互换、嵌入变换、嵌入校准等策略实现;然后,基于度量实体嵌入的相似性来预测实体映射。
MTransE是比较典型的嵌入方法,通过以下损失函数优化:
其中||.||计算欧几里得范数,h,r,t都是编码后的低维向量,处于同一向量空间。一般情况下需要种子训练模型:
最小化损失:
其中e和e'是实体嵌入,维度为m,M是大小mxm的转移矩阵。通过学习M,G可被转换到G'所在的空间。最终实现实体映射记作 ̃YE,其相似度在[0,1]之间。记作: S(e ≡ e′),(e,e′) ∈ ̃YE。通过该方法可以进行近邻搜索。
3. 框架
3.1 PRASE 概览
模型框架如图-1所示,主要由概率模型PR和嵌入模型SE组成。PR用于计算实体映射 ̃YP 及其概率Po。然后将高置信度的映射作为种子,传入嵌入模型SE,SE通过这些种子来训练模型,然后SE模型对于PR模型输出的未对齐的实体 ̃UP进行预测;之后,将SE预测结果实体映射表 ̃YE和相似度得分S(e ≡ e′),以及实体嵌入结果:
作为PR模块的输入,再进行下一次迭代。以上过程迭代K次,PR模型最终输出实体映射表 ̃YP。
3.2 概率推理模型
PR模块首先利用式-1计算出关系的函数F及其反向函数,然后利用式2式3计算两个实体的相似概率。PR与SE交替调用,在k次迭代时(k>0),将前次输出作为本次的输入
i指输入,o指输出,每次迭代时PR的输入如下:
P指的是PR模块的映射概率。当前一个PR模型认为两实体对齐时,将其为同一实体的概率以权重a1代入;当SE模型认为二者对齐且相似度大于阈值δ1(δ1,a1,a2均为超参数,取值范围在0-1之间),将其相似度以权重a2代入;否则设其概率初值为0。
为了更直接地利用SE输出的嵌入信息,在迭代过程中,将PARIS中的式-2变为式-5:
利用超参数β(取值(0,1))来平衡词向量相似度和PARIS计算的概率。sim()计算cosine距离,其取值在[0,1]。
3.3 语义嵌入模块
在第k次迭代时,利用上一次PR产生的对齐数据集Yk-1,从中提取出置信度高(超参数δ2作为阈值)的对齐数据作为种子Sk来训练SE,尽管很多时候种子中包含不正确的数据,但是它也能带来大量的有用信息。用训练好的SE代入未对齐的实体U,它将输出与U最相似的实体,以及词嵌入。任何词嵌入方法都可以用作SE。
PRASE流程如算法-1所示:
对于两个图G和G',设置迭代次数K。
line 1: 用式-1初始化PR模块(通过两图中三元组计算关系函数F)
line 2:PR处理:用式-2和式-3依次计算实体相似概率和关系的包含
line 3:产生了初始的对齐数据集Y0和未对齐数据集U0。
line 4:开始迭代
line 5:基于前次对齐数据集Yk-1产生种子
line 6:使用种子训练SE模型
line 7:用SE模型对前次未对齐数据Uk-1预测
line 8:产生了本次预测结果YE和嵌入结果EEk
line 9:使用式-4初始化PR模型
line 10:PR处理,计算式-5和式-3
line 11:产生了本次的对齐数据集Yk和未对齐数据集Uk。
line 12:继续迭代
line 13:最终输出Y
4. 评价
4.1 数据集
OpenEA 数据集: 常用的用于评测图对齐的数据集。由DBpedia, YAGO, and Wikidata组成,文中评测使用其V2版本,包含跨语言数据集和跨知识图谱数据集,另外,还使用了相对困难的数据集D-W-15K-V2。
下载地址:https://github.com/nju-websoft/OpenEA
工业数据集:MED-BBK-9K是Zhang在2020年提出的数据集,包含专业医学数据集和百度百科医学数据(中文),约几十万个三元组。形如:
下载地址:https://github.com/ZihengZZH/industry-eval-EA
解压后即可看到三元组数据(又解锁一个中文的医学图谱数据及其对齐算法,开心)。
4.2 实验设置
最上边部分是嵌入模型,第二部分是推理模型,STR-Match和 EMB-Match计算实体间的相似度,最后一部分是PRASE模型分别使用BootEA和MultiKE模型作为SE。
实验环境是: NVIDIATesla M40 GPU, and CentOS 7.2,128G内存,2.4GHz CPU。对于4个100K的数据集的训练速度是平均1697秒,BootEA和MultiKE分别是24727和3198。
表-3和表-4分别展示了消融实验和不同嵌入模型的对比效果。
图-5展示了不同迭代次数对模型的影响,更多的迭代可以提升模型效果,但K也不用设得太大。
网友评论