论文标题:AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators
论文链接:https://arxiv.org/abs/2109.10259
论文来源:AAAI 2022
代码链接:https://github.com/Somedaywilldo/AutoGCL
一、概述
在图像领域应用数据增强的对比学习方法很成功,然而在图上不一定是高效的,这是由于对图的数据增强转换可能会破坏其语义和属性。InfoMin采用一个基于流的生成模型(flow-based generative model)来生成对比视图以替代数据增强,实现了视觉任务对比学习性能的提升。因此,对于图而言,学习对比视图相对于输入图的概率分布也可能是一种采样数据增强的选择,但是这是不容易的,因为现实场景中通常的图生成模型的性能和可拓展性都很差。
本文提出的AutoGCL,即是一种可学习的图视图生成方法,通过节点增强的方式来学习一个概率分布以解决上述的问题。通常的预定义的视图生成方法比如random dropout或者graph node masking,不可避免地会改变图的语义标签并且最终伤害对比学习的性能,而AutoGCL对于输入图是自适应的,因此它能够保留图的语义标签。AutoGCL采用了gumbel-softmax技巧,因此是端到端可微的。另外本文提出了一个联合训练的策略来以一种端到端的方式训练可学习的视图生成器、图的encoder以及分类器。
二、方法
- 图神经网络
使用来表示一个图,是的节点特征。GNN的第层可以表示为:
是节点的邻居节点集合。对于下游任务需要获得图的表示,则可以使用一个READOUT函数一个MLP层:
本文采用GIN和ResGCN两种GNN模型。
- 好的图视图生成器的特点
本文的目标是设计一种可学习的图的视图生成器,能够以数据驱动的方式生成图的增强视图。很少有关于什么是一种好的视图生成器的套路,本文认为一个理想的视图生成器应该满足以下几个特性:
①支持对图的拓扑结构(Topological)和节点特征(Node Feature)进行增强;
②能够保留图的标签(Label-preserving),也就是说增强图应该保留原图的语义信息;
③可自适应不同的数据分布(Adaptive),并可扩展到大型图;
④能够为多视图对比学习预训练提供充足的差异(Variance);
⑤是端到端可微的(Differentiable),能够利用反向传播进行高效梯度计算(Efficient BP)。
下表展示了目前的增强方法能够满足的不同特性的对比:
对比本文提出了一种可学习的视图生成方法来解决上面的问题。AutoGCL采用node dropping和attribute masking两种增强方式,这两种方式可以以节点级别的方式使用,而不需要采用“aug ratio”的方式。AutoGCL没有采用edge perturbation的数据增强方式,这是因为通过可学习的方式生成边的方法需要预测整个邻接矩阵,这包含的元素个数,对于反向传播来说是一个严重的负担,在处理大规模图时尤甚。
- 可学习的图视图生成器
下图描述了AutoGCL的视图生成方法的大体框架:
框架本文使用GIN来从节点属性中获得节点的embedding,使用节点的embedding来预测对这个节点的增强方式,也就是预测对这个节点进行丢弃、保留还是mask。我们采用gumbel-softamx来从这个预测的分布里采样对节点的操作。
具体的,假设我们采用层GIN层作为embedding层,对于节点,其节点特征向量为,其增强选择向量为,函数将增强操作应用到上。现在增强特征向量获取的过程为:
最后一层(第层)的维度被设置为可能的增强操作的个数。代表选择每种增强方式的概率分布。是由gumbel-softmax计算得到的one-hot向量,是可微的。使用可微操作(比如相乘)结合和。因此视图生成器的权重梯度保留在增强节点特征中,并可以使用反向传播计算。另外也要对边根据进行更新,也就是说所有连接到被丢弃节点的边要被删除。图的边仅仅用于指导聚合操作,不参与梯度计算,因此不需要以可微的方式进行更新。
- 对比学习策略
- 三种损失函数
AutoGCL采用两个视图生成器来构建对比学习中的多视图。AutoGCL的损失函数包含三个部分,分别是对比损失、相似度损失以及分类损失。
对于对比损失,采用NT-XEnt损失函数。首先定义图表示的相似度度量函数
假设在一个batch中有个图,我们将这个图通过两个视图生成器来获得个视图,以作为温度系数,则对比损失为:
相似度损失用于最小化两个视图生成器生成的视图之间的互信息。对于一个图,两个视图生成器对其进行数据增强采样,都会有一个数据增强选择的矩阵(也就是前面视图生成器框架图中的矩阵),分别记作和。然后相似度损失即为:
最后,对于分类损失,采用交叉熵损失()。对于一个图样本,以及其增强图和,其类标签为,分类器为(这里的分类器指的是encoder和线性分类器的组合),则分类损失为:
用在半监督预训练任务中来驱动视图生成器来生成标签保留的(label-preserving)视图。
- 模型框架
下图展示了AutoGCL的整个框架:
框架- 朴素训练策略
对于无监督学习和迁移学习任务,采用朴素的训练策略(Naive Training Strategy)。由于在预训练阶段不知道数据的标签,因此应用相似度损失甚至可能会造成不好的结果,这是因为仅仅让生成的视图不同而没有保证能够保留标签信息。所以在预训练阶段只采用对比损失来优化视图生成器和分类器。
在预训练阶段,除了采用视图生成器生成的两个视图,也会使用原图作为一个视图。通过在嵌入空间中拉近原图和增强视图,视图生成器可以保存标签相关的信息。完整的算法如下:
朴素训练策略- 联合训练策略
对于半监督任务,我们采用一种交替进行的联合训练策略(Joint Training Strategy)。对于联合训练策略,在无监督训练阶段,我们固定视图生成器,并使用无标注数据通过对比学习来训练分类器。在监督训练阶段,我们使用标注数据联合训练视图生成器和分类器。算法如下:
联合训练策略这里值得注意的是,虽然上面采用了权衡系数,但是实验中采用效果会更好。
另外,本文发现像GraphCL采用的预训练+微调的训练模式容易造成微调阶段的过拟合。过分地最小化可能会对微调阶段造成负面影响。我们推测,过度最小化会导致决策边界附近的数据点过于接近,从而增加分类器分离它们的难度。两个类的分布之间可能会有自然的重叠,这导致可能始终会存在错误分类的数据。然而在对比学习预训练阶段,分类器并不知道被拉近的数据是否来自同一个类。
三、实验
- 无监督学习实验
结果如下:
无监督学习实验- 迁移学习实验
结果如下:
迁移学习实验- 半监督学习实验
结果如下:
半监督学习实验- 可学习的视图生成器的有效性
下图展示了MNIST超分辨率数据集上不同方法的数据增强效果:
实验
网友评论