1. Abstract
尝试使用属性三元组做对齐。
然而,由于不同KG中属性名称和非标准属性值的表达方式不同,属性三元组无法得到充分利用。
本文提出了一种无监督的实体对齐方法,使用KG的三元组和属性三元组。
①提出了一个交互式的模型,通过交替形成实体对齐和属性对齐来使用属性三元组,这将生成大量高质量的对齐实体对。
②使用这些对齐实体对来训练relation嵌入模型,这样我们可以使用关系三元组进一步对齐剩余实体。
③最后,利用二元回归模型。
2. Introduction
![](https://img.haomeiwen.com/i13670818/8e47144388b4f460.png)
JAPE联合了属性,但为了避免处理属性值的不同表达问题,JAPE没有充分利用属性值的信息,而是将属性值简化为数据类型,如
(Steven Jobs,birthdate,1955-02-24)被简化为(Steve Jobs,birthdate,Datetime)
如图所示,在KG1中属性“出生时间”用“birth-time”表示,
在KG2中,用“birthdate”表示。
本文提出了一种交互式实体对齐方法,交替进行实体对齐和属性对齐。
首先使用公共属性进行实体对齐,然后基于匹配的实体进行属性对齐,这样可以迭代地促进两个对齐结果。
然后通过二元回归模型来组合两个对齐结果,以学习相应的权重。
3. Methodology
使用属性三元组进行实体对齐的一种基本方法是识别两个实体的属性三元组之间公共属性和属性值的百分比,根据百分比可以测量实体间的相似性。
![](https://img.haomeiwen.com/i13670818/9f4e2f88c5e0a879.png)
如图,具体来说,每次迭代时,先基于属性值进行实体对齐,并逐渐建立实体对的匹配及OE,然后利用结果进行属性对齐,并累计建立属性对的匹配集合OA。我们反复重复上述过程,直到不再产生新的公共属性或匹配的实体。
3.1 基于对齐属性的实体对齐
在分析从百度百科全书和维基百科中提取的数据时,我们发现,相同实体的属性存在巨大差距。这是由于以下原因造成的:
属性覆盖率低。常见属性的值多种多样,以及属性名称的多种多样。
首先,当使用属性的值进行实体对齐时,我们发现属性的覆盖率非常低,因此我们不能像在关系数据库中那样,从整体角度根据属性的重要性赋予属性不同的权重。
基于这个想法,我们定义两个属性间的相似性为:
![](https://img.haomeiwen.com/i13670818/fe4e8141108c0882.png)
其中,
![](https://img.haomeiwen.com/i13670818/d985cb5fd54b8e56.png)
其中LevensteinSim()是Levenstein距离,这是一种用于测量两个序列之间差异的字符串度量。
lcsSim()是两个字符串的最长公共子串来测量相似性。
因此,我们可以充分利用实体的公共属性来表示实体的相似性。
其次我们还发现,尽管实体具有共同属性,其值差距往往很大,尤其是对于数字属性,例如一个人的出生时间,形式可能显示为“1995-02-24”或“1995月2月24日”等,如果通过
此外,由于统计的时间不同,值变化很大,例如,不同数据源中同一城市的属性“人口”在不同年份的值不同。为了解决这些问题,我们将值标准化为最流行的值,例如日期中的"yyyy-mm-dd"。然后,我们通过正则表达式提取字符串中的所有数字,并定义以下函数,通过从归一化值中提取数字来计算其值的相似性:
![](https://img.haomeiwen.com/i13670818/c9e81bcba41746f1.png)
只有当
还得考虑两个实体没有共同属性的情况,即使它们引用了相同的真实世界对象。此外,KGs使这一现象相当严重,比如“出生时间”的属性在百度百科中显示为“生日”,但在维基百科上显示为“出生时间”。我们不能很好地将这种属性用于实体对齐。因此,我们决定使用对齐的实体,来对齐这类属性。
3.2 基于对齐实体的属性对齐
利用对齐的实体对,我们可以找到更多对齐的属性对。
假设在某个迭代iter中,我们有一组对齐实体对,
利用以下等式计算相似性:
![](https://img.haomeiwen.com/i13670818/4082f4f349475d77.png)
![](https://img.haomeiwen.com/i13670818/f5b408bbff958986.png)
3.3 结构嵌入
我们从交互模型的结果中选择具有高置信度(大于预定义阈值)的实体对作为结构嵌入的训练集。然后,我们使用关系三元组和训练集进行结构嵌入,旨在对两个KG的几何结构进行建模,并学习实体和关系的近似表示。形式上,给定了一个关系三元组。为了衡量tr的合理性,SE模型优化了基于边际的排名损失,使正三元组的得分低于负三组的分:
![](https://img.haomeiwen.com/i13670818/d2a1d486e50a34cb.png)
通过嵌入学习,我们可以学得跨KGs的实体的近似向量表示,
3.4 用于权值分配的二元回归模型
我们从关系和属性两个方面来表示实体之间的相似性。
具体来说,我们将由关系三元组和属性三元组计算的相似性纳入线性加权中。
![](https://img.haomeiwen.com/i13670818/13a8708230307794.png)
我们没有人为设计参数
对于不同的数据集,关系和属性的重要性应该不同。即对于一个充满高质量关系的数据集来说,关系的权重应该具有更高的置信度。相反,如果实体关系的数量很小,则应该为属性分配更高的权重。
具体来说,我们利用这些训练实体对,也将其视为无监督SE的训练集,来构建我们的回归模型的输入。
我们希望匹配的实体对的相似性
网友评论