论文阅读_多类型实体的图对齐_CGMuAlign

论文阅读_多类型实体的图对齐_CGMuAlign

作者: xieyan0811 | 来源:发表于2022-05-14 10:32 被阅读0次

论文阅读_多类型实体的图对齐_CGMuAlign
Navicat 12.022 使用数据库ER图踩坑记录
学而时习之--mysql基础
java 21
结构体内存对齐
命名实体识别
第三部分 - 数据库分析与设计 - 3 - 实体 - 联系建模
OC - button对齐方式
AlignedReID: Surpassing Human-Le
前端面试

英文题目：Collective Multi-type Entity Alignment Between Knowledge Graphs
中文题目：基于知识图的集合多类型实体对齐
论文地址：https://assets.amazon.science/ff/7a/b96282984a0fbe5e31a8fcf68d17/scipub-1202.pdf
领域：知识图谱，实体对齐
发表时间：2020年
作者：Qi Zhu，伊利诺伊大学，亚马逊
出处：the web conference
被引量：17
代码和数据：https://github.com/GentleZhu/CG-MuAlign
阅读时间：2022.04.25

本文特点

文中的一个重要思想是：认为被对齐的图中的知识都是不完备的，所以在图间对齐时，主要对齐对些能齐上的，忽略那些对不上的；同时结构了自注意力模型，对不同关系分配不同权重。

介绍

实体对齐的目标是识别不同图中的同一实体。不同的图在建构的时候由于目标不同，各有偏重。比如图-1中的左右两张图：

图中的Aditya Raj是同一实体，在左图中他即是作者也是编辑，而右图中它是作者和制作人，即：在不同图中实体有不同的类别。使用不同策略，对齐结果也不同。

实体对齐中常见的问题包括：使用图嵌入做对齐，忽略了丰富的属性信息，在传导模型中，加入新实体需要重新训练模型；模型常常在训练数据丰富时效果较好，而在稀疏和缺少的类型中效果较差（如有些数据没有标签）。

作者希望用GNN方法解决上述问题，GNN方法通过逐步整合邻域，来实现归纳模型并计算之前没出现过的实体。测试后发现效果并不好，原因是之前方法认为节点完全一致的情况下才算对齐，两图的偏重不同就可能对不齐。比如图-1中IMBD包含编辑、导演、演员信息，而Freebase中包含导演和制作人信息。

所以文中提出了集成决策，设计了注意力机制在图间更关注实体的共同邻居作为正向证据。比如图-1中左图出现四部电影，右图出现两部电影，用之前的方法，不同邻居将产生不同节点嵌入，而文中方法给共同的邻居电影以更大权重。对于负例，使用自注意力机制，如两个同系列的电影可能有相同的作家、导演和演员，但年份和长度不同，对不同边给予不同权重。

主要贡献

提出基于GNN的CG-MuAlign框架，支持对齐不同类型。
结合了自注意力和图交叉注意力方法。
优化算法，使模型能在大规模数据集上使用。
在数据量大，标注量小的情况下，模型效果好。

算法

整体结构

定义图为： G = (V, E, T , R) ，求节点映射 φ : V → T和边映射 ψ : E → R。注意这里的T指的不是三元组，而是节点类型。用S表示对齐种子（标注数据），只有少量数据被标注。

模型包含两个GNN编码器和一个对齐层。编码器从节点v得到k跳子图用于收集邻居信息：

对于节点i，利用它的邻居们j在前一层的表示，计算它的表示z，再利用z和i节点本身在上一层的表示求它在本层的表示：

两个图的GNN结构和参数都相同，经过多层最终输出为两个GNN的隐藏层h，计算距离损失函数：

这个公式之前文章中讲过，γ为加大正例和负例间的距离。d是二范数的距离函数。模型结构如图-3所示：

集成GNN

首先，根据边的类型对i的邻居编组Ni,r，使用不同转换函数（参数矩阵W），比如图-1左图作为作者有三个邻居，作为编辑有一个邻居，对每种邻居计算z：

当图-2中一个人同时是作者和制作人时，上述方法可描述不同角色。

设节点级的注意力参数为a，边级的注意力参数为b，使用以下聚合方法，计算整体的z：

然后计算第k层的隐藏层

其中||指串联，上述方法命名为COLLECTIVEAGG。
每个encoder堆叠了多个层，k-1层的输出作为k层的输入，第0层的输入是节点特征，允许不同类型特征有不同长度，所以第一层的W大小可能不同，后面层长度都一样。

节点级的交叉图注意力

图结构差异主要是由知识图中的不完备性引起的。在CG-MuAlign中，对于在两图中都有的邻居给予更高的权重。设p与q是节点的邻居对 (p, q) ∈ Ni × Ni′ ，式-4中的a计算如下：

上式对ap和aq进行了归一化处理。a越大说明p和q越像。如图-2a所示，算法给作为writer两项更高权重（红框），所以说图间注意力更偏重正例。

边级别的关系感知自注意力

如果邻居只依赖交叉注意力聚合，则难以利用负面证据。比如在亚马逊音乐和维基百科中都有歌曲《Radioactive》，交叉注意力发现它们在图中的作者制作人等多数信息都相同，但演唱者不比，所以不是同一个实体，这说明对于歌曲，演唱者比作者制作人更重要。用GAN类似方法，计算边的注意力：

注意这里的a向量是注意力权重，而不是上面的a(alpha)。

扩展

上述方法训练和应用运算量大，利用下面三种方法优化。

简化计算
基于开放世界假设，设Gu为完全知识图，而需要对齐的G和G'各有包含Gu的部分知识，设K为跳数。经过一系列推理（此处略过），说明随着K的增长，集合能力（上面公式中的集合方法）的期望呈几何衰减，服从长尾分布，所以只需要在最后一层使用集合方法以节约算力，其它均使用平均聚合方法：

小批量训练和对邻居采样
传统图模型使用全局训练，在大数据集上无法应用。文中方法在训练数据的正样本对中采样，并构建K跳的子图，以节约算力。
另一个技巧是尽量对关系重要的邻居采样，以提升集合能力。比如一部电影一般是一个导演多个演员，所以导演携带更多信息。对不同关系的采样概率设置如下：

生成候选集
上述方法解析了训练算力问题，而预测时，可能需要面对数以百万计的实体。在生成候选集时，对于每个测试节点，使用几个强关键字(如人名和出生日期)来收集可能的匹配实体，并使用CG-MuAlign来预测候选对中的比对得分。

实验

实验使用两个大数据集：电影数据和音乐数据集。

对比基线也都是非常流行的模型

还对比了只使用Self或Cross的效果

与之前深度学习模型相比运行时间短。

相关文章

论文阅读_多类型实体的图对齐_CGMuAlign
英文题目：Collective Multi-type Entity Alignment Between Knowl...
Navicat 12.022 使用数据库ER图踩坑记录
ER图也称实体-联系图(Entity Relationship Diagram)，提供了表示实体类型、属性和联系的...
学而时习之--mysql基础
E-R图 E-R图也称实体-联系图(Entity Relationship Diagram)，提供了表示实体类型、...
java 21
E-R图 E-R图也称实体-联系图(Entity Relationship Diagram)，提供了表示实体类型、...
结构体内存对齐
不同数据类型占用字节图内存对齐的原则 1、数据成员对齐规则：结构（struct）(或联合（union）的)数据...
命名实体识别
1.论文实体的表示，同时解决歧义问题基于多原型mention向量的文本-实体联合学习论文浅尝 | 利用Lat...
第三部分 - 数据库分析与设计 - 3 - 实体 - 联系建模
下图所示的 ER 图是对 DreamHome 案例的 Branch 视图 ER 建模的结果。 1. 实体类型实体...
OC - button对齐方式
button.contentHorizontalAlignment // 对齐属性对齐类型 /* UIContr...
AlignedReID: Surpassing Human-Le
摘要该论文提出了一种新的叫做对齐重识别的方法，它通过计算两个本地特征的最短路径实现。在对齐后，使用全局特征计算图...
前端面试
如何实现垂直居中对齐简述轮播图实现原理 js基本类型string，bool，number，undefine，nu...

网友评论

本文标题：论文阅读_多类型实体的图对齐_CGMuAlign

本文链接：https://www.haomeiwen.com/subject/xlvpurtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|论文阅读_多类型实体的图对齐_CGMuAlign|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！