美文网首页
论文阅读_无监督知识图对齐PRASE

论文阅读_无监督知识图对齐PRASE

作者: xieyan0811 | 来源:发表于2022-04-09 17:35 被阅读0次

    介绍

    英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding
    中文题目:基于概率推理和语义嵌入的无监督知识图对齐
    论文地址:https://arxiv.org/abs/2105.05596v1
    领域:自然语言处理,知识图谱
    发表时间:2021
    作者:腾讯天衍实验室
    出处:IJCAI(国际人工智能联合会议)
    被引量:1
    代码和数据:
    https://github.com/qizhyuan/PRASE-Python
    https://github.com/dig-team/PARIS
    阅读时间:22.04.08

    泛读

    • 针对问题:实体对齐(不是本体对齐)
    • 结果:效果优于之前模型
    • 核心方法:提出PRASE,基于概率推理语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。
    • 难点:先需要了解一下PARIS模型
    • 泛读后理解程度:70%
      (看完题目、摘要、结论、图表及小标题)

    精读

    摘要

    目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者的模型常常依赖有监督学习,缺乏恰当的推理,难以避免逻辑错误的映射;后者解决了推理问题,但较少使用图结构和实体上下文。本文致力于结合二者。

    1. 介绍

    实体对齐可用于把局部的知识图结合成更大的知识图,具体的工作是需要找到不同图中含义相同的实体、关系等。

    图嵌入将图中实体关系等信息编码到低维空间,使其包含的语义信息作为进一步探索的工具。对齐问题的解决方法常常是:先将待对齐的知识图嵌入到一个向量空间中,然后通过计算向量距离或相似性来发现映射。

    这些基于嵌入的模型常常需要一定数量的知识映射(对齐种子)来进行训练,而种子标注需要大量人力。种子的数量和抽样分布对对准性能有很大影响。而且先编码后映射的方法可能忽略整体性,从而导致映射错误。

    使用逻辑推理或者字典映射,本体对齐方法是相对传统的技术,比如2012年的PARIS利用概率归因和字典映射方法,通过名字匹配一些初始特征之后,通过迭代概率推理来推断实体、关系的等价性。因此无需训练,不依赖种子,更高效和可扩展。但它在开发和利用图形结构和其他上下文信息方面较弱。

    本文致力于结合上述两种模型,提出了无监督的迭代框架PRASE。其中的PA是概率推理模块(probablistic reasoning),SE是词嵌入(semantic embedding)模块。PR基于之前PARIS模型,SE用于捕捉图结构和实体的上下文,PR从SE处得到映射和实体嵌入。

    本文主要贡献如下:

    • 提出无监督的对齐框架PRASE,用迭代方法结合了两种模型
    • 使用PARIS和不同的词嵌入模块实现模型
    • 在多个数据集上达到比之前更好的效果

    2. 预备知识

    背景和相关工作

    2.1 问题表述

    设符号:E是边,R是关系,A是属性,V是属性值。将图定义为G=(E,R,A,V,TR,TA),其中TR指关系三元组,TA指属性三元组:

    问题定义成对两个图G和G'中实体的对齐方法:

    "≡"指的是两个实体指向现实世界中的同一对象。

    2.2 PARIS方法

    属性三元组和关系三元组类似,因此定义:

    并且定义了关系的度量函数及其反向函数:

    其中|.|表示集合的基数(集合中的元素数量),上述函数用于计算头实体和尾实体的唯一性。当F(r)=1时,说明其头实体是唯一的,请注意:F和F-1具有不变性,因此,可提前计算。

    PARIS(2012年论文,用于对齐实例、关系、类,适用于大型图)可以交替计算实体映射和包含关系,不同图中的两个实体h和h'相等的概率P(h ≡h′),计算如下:

    其中(h,r,t)是图中的三元组,式-2的大概意思是:在确定了尾实体相等的概率、关系r的逆函数F-1,以及r与r'包含关系的概率后,即可计算头实体h与h'是同一实体的概率。
    其中P(r ⊆ r′)表示r是r'子集的概率:

    式-3假设已知头实体和尾实体分别指向同一实体的概率,分母计算所有h,t,分子计算包含h,r,t的三元组。

    可以看到计算P(r ⊆ r′)需要P(h ≡h′),而P(h ≡h′)又需要P(r ⊆ r′),二者相互依赖,因此需要迭代优化。一开始,P(r ⊆ r′)可被设置为一个很小的值,比如0.1;或者,当实体是属性时,如果文字描述相同则设为1,否则为0;更高级的方法是用实体间的编辑距离作为其评分。

    在每次迭代时,式-2计算出了实体相等的概率,式-3又计算了关系的包含关系,迭代直至收敛。最终PARIS输出的是实体映射表记作 ̃YP,Po(e≡e‘),(e,e’)∈Yp,上标o表示输出。

    2.3 基于嵌入的知识图对齐

    基于嵌入的知识图对齐一般分两步:先学习词嵌入(如使用TransE或图神经网络),在不同图中使用同一向量空间编码,通过参数共享、参数互换、嵌入变换、嵌入校准等策略实现;然后,基于度量实体嵌入的相似性来预测实体映射。

    MTransE是比较典型的嵌入方法,通过以下损失函数优化:

    其中||.||计算欧几里得范数,h,r,t都是编码后的低维向量,处于同一向量空间。一般情况下需要种子训练模型:

    最小化损失:

    其中e和e'是实体嵌入,维度为m,M是大小mxm的转移矩阵。通过学习M,G可被转换到G'所在的空间。最终实现实体映射记作 ̃YE,其相似度在[0,1]之间。记作: S(e ≡ e′),(e,e′) ∈ ̃YE。通过该方法可以进行近邻搜索。

    3. 框架

    3.1 PRASE 概览

    模型框架如图-1所示,主要由概率模型PR和嵌入模型SE组成。PR用于计算实体映射 ̃YP 及其概率Po。然后将高置信度的映射作为种子,传入嵌入模型SE,SE通过这些种子来训练模型,然后SE模型对于PR模型输出的未对齐的实体 ̃UP进行预测;之后,将SE预测结果实体映射表 ̃YE和相似度得分S(e ≡ e′),以及实体嵌入结果:

    作为PR模块的输入,再进行下一次迭代。以上过程迭代K次,PR模型最终输出实体映射表 ̃YP。

    3.2 概率推理模型

    PR模块首先利用式-1计算出关系的函数F及其反向函数,然后利用式2式3计算两个实体的相似概率。PR与SE交替调用,在k次迭代时(k>0),将前次输出作为本次的输入

    i指输入,o指输出,每次迭代时PR的输入如下:

    P指的是PR模块的映射概率。当前一个PR模型认为两实体对齐时,将其为同一实体的概率以权重a1代入;当SE模型认为二者对齐且相似度大于阈值δ1(δ1,a1,a2均为超参数,取值范围在0-1之间),将其相似度以权重a2代入;否则设其概率初值为0。

    为了更直接地利用SE输出的嵌入信息,在迭代过程中,将PARIS中的式-2变为式-5:

    利用超参数β(取值(0,1))来平衡词向量相似度和PARIS计算的概率。sim()计算cosine距离,其取值在[0,1]。

    3.3 语义嵌入模块

    在第k次迭代时,利用上一次PR产生的对齐数据集Yk-1,从中提取出置信度高(超参数δ2作为阈值)的对齐数据作为种子Sk来训练SE,尽管很多时候种子中包含不正确的数据,但是它也能带来大量的有用信息。用训练好的SE代入未对齐的实体U,它将输出与U最相似的实体,以及词嵌入。任何词嵌入方法都可以用作SE。

    PRASE流程如算法-1所示:

    对于两个图G和G',设置迭代次数K。
    line 1: 用式-1初始化PR模块(通过两图中三元组计算关系函数F)
    line 2:PR处理:用式-2和式-3依次计算实体相似概率和关系的包含
    line 3:产生了初始的对齐数据集Y0和未对齐数据集U0。
    line 4:开始迭代
    line 5:基于前次对齐数据集Yk-1产生种子
    line 6:使用种子训练SE模型
    line 7:用SE模型对前次未对齐数据Uk-1预测
    line 8:产生了本次预测结果YE和嵌入结果EEk
    line 9:使用式-4初始化PR模型
    line 10:PR处理,计算式-5和式-3
    line 11:产生了本次的对齐数据集Yk和未对齐数据集Uk。
    line 12:继续迭代
    line 13:最终输出Y

    4. 评价

    4.1 数据集

    OpenEA 数据集: 常用的用于评测图对齐的数据集。由DBpedia, YAGO, and Wikidata组成,文中评测使用其V2版本,包含跨语言数据集和跨知识图谱数据集,另外,还使用了相对困难的数据集D-W-15K-V2。
    下载地址:https://github.com/nju-websoft/OpenEA

    工业数据集:MED-BBK-9K是Zhang在2020年提出的数据集,包含专业医学数据集和百度百科医学数据(中文),约几十万个三元组。形如:

    下载地址:https://github.com/ZihengZZH/industry-eval-EA
    解压后即可看到三元组数据(又解锁一个中文的医学图谱数据及其对齐算法,开心)。

    4.2 实验设置

    最上边部分是嵌入模型,第二部分是推理模型,STR-Match和 EMB-Match计算实体间的相似度,最后一部分是PRASE模型分别使用BootEA和MultiKE模型作为SE。

    实验环境是: NVIDIATesla M40 GPU, and CentOS 7.2,128G内存,2.4GHz CPU。对于4个100K的数据集的训练速度是平均1697秒,BootEA和MultiKE分别是24727和3198。

    表-3和表-4分别展示了消融实验和不同嵌入模型的对比效果。

    图-5展示了不同迭代次数对模型的影响,更多的迭代可以提升模型效果,但K也不用设得太大。

    相关文章

      网友评论

          本文标题:论文阅读_无监督知识图对齐PRASE

          本文链接:https://www.haomeiwen.com/subject/kjwpsrtx.html