美文网首页学习读书人工智能
AutoGCL:基于可学习视图生成器的自动图对比学习

AutoGCL:基于可学习视图生成器的自动图对比学习

作者: 酷酷的群 | 来源:发表于2022-07-18 17:51 被阅读0次

    论文标题:AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators
    论文链接:https://arxiv.org/abs/2109.10259
    论文来源:AAAI 2022
    代码链接:https://github.com/Somedaywilldo/AutoGCL

    一、概述

    在图像领域应用数据增强的对比学习方法很成功,然而在图上不一定是高效的,这是由于对图的数据增强转换可能会破坏其语义和属性。InfoMin采用一个基于流的生成模型(flow-based generative model)来生成对比视图以替代数据增强,实现了视觉任务对比学习性能的提升。因此,对于图而言,学习对比视图相对于输入图的概率分布也可能是一种采样数据增强的选择,但是这是不容易的,因为现实场景中通常的图生成模型的性能和可拓展性都很差。

    本文提出的AutoGCL,即是一种可学习的图视图生成方法,通过节点增强的方式来学习一个概率分布以解决上述的问题。通常的预定义的视图生成方法比如random dropout或者graph node masking,不可避免地会改变图的语义标签并且最终伤害对比学习的性能,而AutoGCL对于输入图是自适应的,因此它能够保留图的语义标签。AutoGCL采用了gumbel-softmax技巧,因此是端到端可微的。另外本文提出了一个联合训练的策略来以一种端到端的方式训练可学习的视图生成器、图的encoder以及分类器。

    二、方法

    1. 图神经网络

    使用g=(V,E)来表示一个图,x_vv\in V的节点特征。GNN的第k层可以表示为:

    a_{v}^{(k)}=AGGREGATE^{(k)}(\{h_{u}^{(k-1)}:u\in N(v)\})\\ h_{v}^{(k)}=COMBINE(h_{v}^{(k-1)},a_{v}^{(k)})

    N(v)是节点v的邻居节点集合。对于下游任务需要获得图的表示z_g,则可以使用一个READOUT函数一个MLP层:

    F(g)=READOUT(\{h_{n}^{(k)}:v_{n}\in V\})\\ z_{g}=MLP(F(g))

    本文采用GIN和ResGCN两种GNN模型。

    1. 好的图视图生成器的特点

    本文的目标是设计一种可学习的图的视图生成器,能够以数据驱动的方式生成图的增强视图。很少有关于什么是一种好的视图生成器的套路,本文认为一个理想的视图生成器应该满足以下几个特性:
    ①支持对图的拓扑结构(Topological)和节点特征(Node Feature)进行增强;
    ②能够保留图的标签(Label-preserving),也就是说增强图应该保留原图的语义信息;
    ③可自适应不同的数据分布(Adaptive),并可扩展到大型图;
    ④能够为多视图对比学习预训练提供充足的差异(Variance);
    ⑤是端到端可微的(Differentiable),能够利用反向传播进行高效梯度计算(Efficient BP)。

    下表展示了目前的增强方法能够满足的不同特性的对比:

    对比

    本文提出了一种可学习的视图生成方法来解决上面的问题。AutoGCL采用node dropping和attribute masking两种增强方式,这两种方式可以以节点级别的方式使用,而不需要采用“aug ratio”的方式。AutoGCL没有采用edge perturbation的数据增强方式,这是因为通过可学习的方式生成边的方法需要预测整个邻接矩阵,这包含O(N^2)的元素个数,对于反向传播来说是一个严重的负担,在处理大规模图时尤甚。

    1. 可学习的图视图生成器

    下图描述了AutoGCL的视图生成方法的大体框架:

    框架

    本文使用GIN来从节点属性中获得节点的embedding,使用节点的embedding来预测对这个节点的增强方式,也就是预测对这个节点进行丢弃、保留还是mask。我们采用gumbel-softamx来从这个预测的分布里采样对节点的操作。

    具体的,假设我们采用k层GIN层作为embedding层,对于节点v,其节点特征向量为x_v,其增强选择向量为f_v,函数Aug(x,f)将增强操作应用到x上。现在增强特征向量x_{v}^{'}获取的过程为:

    h_{v}^{(k-1)}=COMBINE(h_{v}^{(k-2)},a_{v}^{(k-1)})\\ a_{v}^{(k)}=AGGREGATE^{(k)}(\{h_{u}^{(k-1)}:u\in N(v)\})\\ f_{v}=GumbelSoftmax(a_{v}^{(k)})\\ x_{v}^{'}=Aug(x_{v},f_{v})

    最后一层(第k层)的维度被设置为可能的增强操作的个数。a_{v}^{(k)}代表选择每种增强方式的概率分布。f_v是由gumbel-softmax计算得到的one-hot向量,是可微的。Aug(x_{v},f_{v})使用可微操作(比如相乘)结合x_{v}f_{v}。因此视图生成器的权重梯度保留在增强节点特征中,并可以使用反向传播计算。另外也要对边根据f_{v}进行更新,也就是说所有连接到被丢弃节点的边要被删除。图的边仅仅用于指导聚合操作,不参与梯度计算,因此不需要以可微的方式进行更新。

    1. 对比学习策略
    • 三种损失函数

    AutoGCL采用两个视图生成器来构建对比学习中的多视图。AutoGCL的损失函数包含三个部分,分别是对比损失\mathcal{L}_{cl}、相似度损失\mathcal{L}_{sim}以及分类损失\mathcal{L}_{cls}

    对于对比损失\mathcal{L}_{cl},采用NT-XEnt损失函数。首先定义图表示的相似度度量函数

    sim(z_{1},z_{2})=\frac{z_{1}\cdot z_{2}}{||z_{1}||_{2}\cdot ||z_{2}||_{2}}

    假设在一个batch中有N个图,我们将这N个图通过两个视图生成器来获得2N个视图,以\tau作为温度系数,则对比损失\mathcal{L}_{cl}为:

    \ell(i,j)=-log\frac{exp(sim(z_{i},z_{j})/\tau )}{\sum_{k=1}^{2N}\mathbb{1}_{[k\neq i]}exp(sim(z_{i},z_{k})/\tau )}\\ \mathcal{L}_{cl}=\frac{1}{2N}\sum_{k=1}^{N}[\ell(2k-1,2k)+\ell(2k,2k-1)]

    相似度损失\mathcal{L}_{sim}用于最小化两个视图生成器生成的视图之间的互信息。对于一个图,两个视图生成器对其进行数据增强采样,都会有一个数据增强选择的矩阵(也就是前面视图生成器框架图中的矩阵),分别记作A_1A_2。然后相似度损失\mathcal{L}_{sim}即为:

    \mathcal{L}_{sim}=sim(A_{1},A_{2})

    最后,对于分类损失\mathcal{L}_{cls},采用交叉熵损失(\ell_{cls})。对于一个图样本g,以及其增强图g_1g_2,其类标签为y,分类器为F(这里的分类器指的是encoder和线性分类器的组合),则分类损失\mathcal{L}_{cls}为:

    \mathcal{L}_{cls}=\ell_{cls}(F(g),y)+\ell_{cls}(F(g_{1}),y)+\ell_{cls}(F(g_{2}),y)

    \mathcal{L}_{cls}用在半监督预训练任务中来驱动视图生成器来生成标签保留的(label-preserving)视图。

    • 模型框架

    下图展示了AutoGCL的整个框架:

    框架
    • 朴素训练策略

    对于无监督学习和迁移学习任务,采用朴素的训练策略(Naive Training Strategy)。由于在预训练阶段不知道数据的标签,因此应用相似度损失\mathcal{L}_{sim}甚至可能会造成不好的结果,这是因为仅仅让生成的视图不同而没有保证能够保留标签信息。所以在预训练阶段只采用对比损失\mathcal{L}_{cl}来优化视图生成器和分类器。

    在预训练阶段,除了采用视图生成器生成的两个视图,也会使用原图作为一个视图。通过在嵌入空间中拉近原图和增强视图,视图生成器可以保存标签相关的信息。完整的算法如下:

    朴素训练策略
    • 联合训练策略

    对于半监督任务,我们采用一种交替进行的联合训练策略(Joint Training Strategy)。对于联合训练策略,在无监督训练阶段,我们固定视图生成器,并使用无标注数据通过对比学习来训练分类器。在监督训练阶段,我们使用标注数据联合训练视图生成器和分类器。算法如下:

    联合训练策略

    这里值得注意的是,虽然上面采用了权衡系数\lambda,但是实验中采用\lambda =1效果会更好。

    另外,本文发现像GraphCL采用的预训练+微调的训练模式容易造成微调阶段的过拟合。过分地最小化\mathcal{L}_{cl}可能会对微调阶段造成负面影响。我们推测,过度最小化\mathcal{L}_{cl}会导致决策边界附近的数据点过于接近,从而增加分类器分离它们的难度。两个类的分布之间可能会有自然的重叠,这导致可能始终会存在错误分类的数据。然而在对比学习预训练阶段,分类器并不知道被拉近的数据是否来自同一个类。

    三、实验

    1. 无监督学习实验

    结果如下:

    无监督学习实验
    1. 迁移学习实验

    结果如下:

    迁移学习实验
    1. 半监督学习实验

    结果如下:

    半监督学习实验
    1. 可学习的视图生成器的有效性

    下图展示了MNIST超分辨率数据集上不同方法的数据增强效果:

    实验

    相关文章

      网友评论

        本文标题:AutoGCL:基于可学习视图生成器的自动图对比学习

        本文链接:https://www.haomeiwen.com/subject/jctfirtx.html