图神经网络自监督学习工具箱 - PT-HGNN（一）

作者: processor4d | 来源:发表于2022-03-02 23:08 被阅读0次

文章名称

【KDD-2021】【Beijing University of Posts and Telecommunications/Singapore Management University】Pre-training on Large-Scale Heterogeneous Graph

核心要点

文章旨在解决现有图预训练任务只针对同构图的问题，提出了大规模异构图预训练框架PT-HGNN，利用节点级别和子图级别的预训练任务进行对比学习，并将学习到的语义知识和结构特性迁移到下游任务。为了适应大规模数据，作者还提出了基于异构图的Personal PageRank，来增加训练速度。

研究背景

图神经网络在处理图数据方面获得了巨大成功，但也极度的依赖标签数据。为了缓解这一问题，越来越多的自监督方法被提出，期望利用无标签样本学习可以被迁移的知识。但是这些方法都是基于同构图的，不能够充分学习异构图中的各种节点种类和类型的语义信息，并且忽略了异构图的结构特性。

在进行异构图学习是挑战包括，

如何在设计方法学习异构图中各类型节点的特征和语义差异，例如节点的出入度差异等。并利用对比是学习将这种特性encode到图节点的向量表示中。
如何设计方法快速的学习大规模图数据中的上述特性。

方法细节

方法架构

PT-HGNN的整体框架如下图所示，大致可以分为3个主要的阶段，采用2种预训练任务进行pre-train，

framework of PT-HGNN

Node-level Pre-training Task。这部分主要是构造异质图上的节点级别的对比学习任务。现有基于同质图的方法，主要采用结构的特性来区分正负样本对，例如，对图结构（包括删除边和节点）或节点属性进行扰动。为了适应异质图，作者用一条边两个端点构建正样本对，认为由某种关系相连的节点应该具有隐向量空间的相似性。并通过替换正样本对中的某个一个节点来构造负样本。但基于异质图的性质对负样本的构造过程，进行了限制以生成更好的负样本。

同类型替换。该限制要求，用于替换的节点 ${v}^{-}_{}$ 应该与原节点 ${v}^{}_{}$ 属于同一个类型。例如，上图Figure 1中的子图c，替换 ${p}^{}_{1}$ 的时候，应该只能选择其他 ${p}^{}_{\cdot}$ 而不应该是 ${a}^{}_{\cdot}$ 之类的其他类型的节点。

非相似替换。该限制要求，用于替换的节点 ${v}^{-}_{}$ 应该与原节点 ${v}^{}_{}$ 不应该太相近。毕竟，很相近的节点替换了之后，被用来作为负样本，可能会引入噪声。（文中有在Sec3.1这一小标题下有距离，但是感觉中间应该有笔误，如下图所示，图中 ${p}^{}_{2}$ 应该是 ${p}^{}_{1}$ 。) mistake?

基于上述两个规则，负样本生成的方法可以形式化为如下图所示的公式。其中， ${\phi}(\cdot)$ 表示取某个节点的类型。 ${Sim}(\cdot)$ 表示计算两个节点的相似度， $\delta$ 是相似度阈值。作者表示，为了不构造太简单的负样本， $\delta$ 一般选择比较大的值。
negative sample generation
Node-level的预训练任务采用如下图所的 InfoNCE[28] 损失函数进行训练，其中， ${h}^{\top}_{u}, {h}^{}_{v}$ 分别表示节点的向量表示。损失采用bilinear的方式计算logits。
node negative loss

本节介绍了作者研究的问题背景和节点层级的预训练任务，下节继续介绍子图级别的预训练任务和加速大规模图训练的方法。

心得体会

类别和关系差异

作者设计的节点层级的对比学习任务（预训练任务）主要是基于节点类别的。可以理解为反映了不同节点类别的语义和结构属性，主要体现在上下文的表示上。节点层级对比学习其实也反映了关系的差别，因为不同类型的边会构造出不同的正负样本。相比而言，也没有体现更多的结构信息。

文章引用

[1] AleksandarBojchevski,JohannesKlicpera,BryanPerozzi,AmolKapoor,Martin Blais, Benedek Rózemberczki, Michal Lukasik, and Stephan Günnemann. 2020. Scaling graph neural networks with approximate pagerank. In KDD. 2464–2473.

[7] Yuan Fang, Wenqing Lin, Vincent Wenchen Zheng, Min Wu, Kevin Chen-Chuan Chang, and Xiaoli Li. 2016. Semantic proximity search on graphs with metagraph- based learning. In ICDE. 277–288.

[10] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2020. Mo- mentum contrast for unsupervised visual representation learning. In CVPR. 9729– 9738.

[27] Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S. Yu, and Tianyi Wu. 2011. Path- Sim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB. 992–1003.

[28] Aäron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. arXiv preprint arXiv:1807.03748 (2018).

[*1] Pedersen, Lilian, Francisco Rodríguez and Fernando for Secretaria de Transporte Brunstein. “Manual de manejo ambiental y social.” (2007).

网友评论

本文标题：图神经网络自监督学习工具箱 - PT-HGNN（一）

本文链接：https://www.haomeiwen.com/subject/lopsrrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！