论文粗读“SimGRACE: A Simple Framewor

作者: 掉了西红柿皮_Kee | 来源:发表于2022-06-20 21:33 被阅读0次

论文粗读“SimGRACE: A Simple Framewor
推荐系统遇上深度学习(三十八)--CFGAN:一种基于GAN的协
论文粗读“GCN with Clustering Coeffic
论文粗读“Hyperspectral Image Classif
论文粗读“Continuous Similarity Learn
论文粗读"Neural storyline extraction
论文粗读“Clustering by Maximizing Mu
论文粗读“HCSC: Hierarchical Contrast
论文粗读"Drug Similarity Integration
论文粗读“Graph Debiased Contrastive

Xia J, Wu L, Chen J, et al. SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation[C]//Proceedings of the ACM Web Conference 2022. 2022: 1070-1079.

摘要导读

由于图数据的多样性，在常用的基于数据增强的图对比学习（Graph Contrastive Learning, GCL）中很难很好的保留原有的语义信息。作者提出了一种不需要依赖数据增强的SimGRACE。具体来说，将原始图作为输入，以扰动版本的GNN模型作为两个编码器，得到两个相关的视图进行对比。SimGRACE的灵感来来源于图数据可以在编码器扰动期间很好地保持其语义，而不需要手动的试验和错误、繁琐的搜索或昂贵的领域知识来进行图增强选择。

模型浅析

如上图所示，SimGRACE包含3个主要的部分：

Encoder perturbation
传统的GNN编码器 $f(\cdot; \theta)$ 以及其对应的扰动版本 $f(\cdot; \theta')$ 首先用来抽取原始图数据中的图级别的表示 $h$ 和 $h'$ ：这里用来扰动GNN编码器 $f(\cdot; \theta)$ 的方法描述为如下： $\theta_l$ 和 $\theta'_l$ 分别是GNN和其扰动版本的第 $l$ 层的权重。 $\eta$ 是扰动量大小的系数。∆ $\theta_l$ 是采样自高斯分布的扰动项。
Projection head
一个非线性的映射函数 $g(\cdot)$ 将学习到的表示映射到另一个潜在空间以提高性能。这里采用的是一个两层的MLP来得到潜在表示 $z$ 和 $z'$ 。
Contrastive loss
这里采用的是NT-Xent来强制正例样本 $z$ 和 $z'$ 之间的一致性要远大于负例。在训练的过程中，随机的抽取N个图，然后将其输入到 $f(\cdot; \theta)$ 和 $f(\cdot; \theta')$ 中，对于每个图可以得到两个表示且一共形成2N个表示。作者将一个批次中的第 $n$ 个图的表示 $z$ 和 $z'$ 重新记录为 $z_n$ 和 $z'_n$ 。同一个批次中的其他 $N-1$ 个被扰动的表示被作为负例样本。由此，第 $n$ 个图的对比损失定义为：其中sim( $z_n, z'_n$ )为余弦相似性度量值。 $\tau$ 是temperature parameter。给定批次的损失由所有正例组成。
表示验证

为了说明SimGRACE wroks的原因。作者引入了一个用于分析对比学习表示的工具，也是对比学习中比较重要的两个属性alignment and uniformity。（这里之后要做一些理论分析的时候可以进行借鉴）
AT-SimGRACE
为了增强模型的鲁棒性，本文通过对抗训练（AT）来提高SimGRACE的对抗鲁棒性。AT直接将对抗的样本合并到训练过程中，来解决以下优化问题：其中， $n$ 是训练样本的数量， $x'_i$ 是对应于样本 $x_i$ 的对抗样本， $f(\cdot; \theta)$ 是一个深度神经网络， $\mathcal{l'}(\cdot)$ 是一个用于监督的交叉熵损失。
因为在对比损失中是没有数据标签信息的，并且关于图的扰动工作会使得整个模型很繁重。由此，作者将AT-SimGRACE的优化问题转化为如下的形式：其中 $M$ 是数据集中图的数量。假设 $\mathbb{\Theta}$ 是GNN所对应的权重空间，对于任意w和一个正值 $\epsilon$ ，在 $\theta$ 中定义半径为 $\epsilon$ ，以w为中心的 $L_2$ 范数球：整体的优化问题可以看做是在内部使用最大扰动∆的条件 $f(\cdot; \theta + ∆)$ 下，外层训练使用SGD来更新GNN的权重 $\theta$ 。

后面关于对抗框架的扩展让人emo...不知道是大佬写的太复杂...不，一定是我太菜了。。不过值得一提的是，该论文所涉及到的图数据信息是相互独立的，每个数据自身存在着一个图 $\mathcal{G}_i$ 。而不是我们平时所接触到的图（数据集中所有样本点形成一个图结构），这种数据集通常是生物医学中涉及到的药物的结构信息，或者在对待分类的句子使用其中的词进行构图时那种单独的对应于样本的图。