美文网首页人工智能
JOAO:自动化选择数据增强的GraphCL

JOAO:自动化选择数据增强的GraphCL

作者: 酷酷的群 | 来源:发表于2022-05-18 19:42 被阅读0次

    论文标题:Graph Contrastive Learning Automated
    论文链接:https://arxiv.org/abs/2106.07594
    论文来源:ICML 2021

    之前的相关博客:GraphCL:基于数据增强的图对比学习

    一、概述

    与图片数据不同,图数据来源于多个不同的领域,不同来源的图数据性质差异很大,因此在进行数据增强时不同的数据集可能会适应不同的方式。在GraphCL中采用了多种不同的数据增强方式,但是对于具体的数据集来说需要通过手工挑选特定的增强方式。数据增强方式的选择遵循经验法则,通常是从每个数据集的反复试验中总结出来的。对于这个问题,本文提出了 JOint Augmentation Optimization (JOAO)框架来进行数据增强方式的自动选择。JOAO是一个基于对抗方式的min-max双层训练框架,其特点是:
    ①自动的,完全不需要人工选择数据增强的方式;
    ②自适应的,平滑泛化处理不同的图数据;
    ③动态的,允许在不同的训练阶段选用不同的数据增强。

    另外需要强调两点:
    ①JOAO不一定要与GraphCL绑定,也可以与其他图对比学习框架结合;
    ②JOAO主要关注数据增强方式的自动化选择,其目标是能够达到SOTA的效果,而不一定要超越它。

    二、方法

    1. GraphCL

    对于图G=\left \{V,E\right \},其节点特征为X_{v}\in \mathbb{R}^{D}v\in V。一个GNN被定义为映射f:\mathcal{G}\rightarrow \mathbb{R}^{D^{'}}\mathcal{G}是图所在的空间。我们期望学习一个GNN encoderf来讲图G映射为一个D^{'}维向量。

    本文采用的GraphCL框架如下图所示,具体可以参考前面的链接:

    GraphCL

    具体的,模型的输入图为G,从经验分布P_G里得到。从\mathcal{A}=\left \{\mathrm{NodeDrop, Subgraph,EdgePert, AttrMask,Identical}\right \}里采样两个增强操作A_1,A_2。GraphCL优化一下目标函数:

    min_{\theta }\mathcal{L}(G,A_1,A_2,\theta )\\ =min_{\theta } \{-E_{P_{G}\times P_{(A_1,A_2)}}sim(\underset{\mathrm{positive\: pairs}}{\underbrace{T_{\theta ,1}(G),T_{\theta ,2}(G)}})\\ +E_{P_{G}\times P_{A_1}}log(E_{P_{G^{'}}\times P_{A_2}}exp(sim(\underset{\mathrm{negative\: pairs}}{\underbrace{T_{\theta ,1}(G),T_{\theta ,2}(G^{'})}})))\}

    这里的T_{\theta ,i}=A_{i}\circ f_{\theta ^{'}}\circ g_{\theta ^{''}}(i=1,2)\theta =\left \{\theta ^{'},\theta ^{''}\right \}参数化,f_{\theta ^{'}}:\mathcal{G}\rightarrow \mathbb{R}^{D^{'}},g_{\theta ^{''}}:\mathbb{R}^{D^{'}}\rightarrow \mathbb{R}^{D^{''}}是共享的GNN和非线性映射,sim(u,v)=\frac{u^{T}v}{||u||\: ||v||}是余弦相似度,P_{G^{'}}=P_{G}相当于负采样分布,P_{A_1}P_{A_2}是边缘分布。经过对比学习预训练后,f_{\theta ^{'*}}用来做下游任务的微调。

    在GraphCL中,(A_1,A_2)通过手工挑选和预定义来确定,换句话说P_{(A_1,A_2)}是一个Dirac分布。对于一个数据集来说,只采用一个(A_1,A_2)对来进行学习。

    1. JOAO
    • 框架

    JOAO框架能够动态和自动地学习优化P_{(A_1,A_2)},其主要依赖以下双层优化框架:

    min_{\theta }\mathcal{L}(G,A_1,A_2,\theta ),\\ s.t.\; P_{(A_1,A_2)}\in argmin_{P_{(A_{1}^{'},A_{2}^{'})}}D(G,A_{1}^{'},A_{2}^{'},\theta )

    上层的\mathcal{L}与GraphCL中的损失一样,当然也可以是其他框架的对比损失,下层目标\mathcal{D}优化采样分布P_{(A_1,A_2)}。JOAO只从自监督训练本身获取信息,不会接触到下游标注数据。

    JOAO受对抗训练的启发,采用交替梯度下降的min-max优化框架,始终利用当前对比损失的最具挑战性的数据增强:

    min_{\theta }\mathcal{L}(G,A_1,A_2,\theta ),\\ s.t.\; P_{(A_1,A_2)}\in argmax_{P_{(A_{1}^{'},A_{2}^{'})}}\{\mathcal{L}(G,A_{1}^{'},A_{2}^{'},\theta )\\ -\frac{\gamma }{2}dist(P_{(A_{1}^{'},A_{2}^{'})},P_{prior})\}

    这里的\gamma \in \mathbb{R}_{\geq 0}P_{prior}是所有可能的增强组合的概率分布,以及dist:\mathcal{P}\times \mathcal{P}\rightarrow \mathbb{R}_{\geq 0}是距离函数。在本文中采用均匀分布作为P_{prior},目的是希望能够保证选择的多样性。dist(\cdot ,\cdot )采用平方欧式距离,也就是dist(P_{(A_{1},A_{2})},P_{prior})=\sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}(p_{ij}-\frac{1}{|\mathcal{A}|^{2}})^{2},这里的p_{ij}=Prob(A_{1}=\mathcal{A}^{i},A_{2}=\mathcal{A}^{j})

    采用交替梯度下降算法(AGD)来交替优化上层最小化和下层最大化,如下:

    算法
    • 上层优化

    对于上层对比损失,采用常规的梯度下降算法:

    \theta ^{(n)}=\theta ^{(n-1)}-\alpha ^{'}\nabla _{\theta }\mathcal{L}(G,A_1,A_2,\theta )

    这个式子就是算法中的(4)式,这里的\alpha ^{'}\in \mathbb{R}_{>0}是学习率。

    • 下层优化

    由于按照原来的损失函数\mathcal{L},很难去直接优化p_{ij},所以首先我们把对比损失重写为:

    \mathcal{L}(G,A_1,A_2,\theta )=\sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}{\color{Green}{p_{ij}}}\{-E_{P_{G}}sim(T_{\theta }^{i}(G),T_{\theta }^{j}(G))\\ +E_{P_{G}}log(\sum_{j^{'}=1}^{|\mathcal{A}|}{\color{Red}{p_{j^{'}}}}E_{P_{G^{'}}}exp(sim(T_{\theta }^{i}(G),T_{\theta }^{j^{'}}(G^{'}))))\}

    这里的T_{\theta }^{i}=A^{i}\circ f_{\theta ^{'}}\circ g_{\theta ^{''}}(i=1,\cdots ,5),边缘分布p_{j^{'}}=p_{j}=Prob(A_{2}=\mathcal{A}^{j})。这种重写的方式实质上是将采样增强对的方式改成了概率加权的形式,然而改写的形式中出现了p_{j^{'}}边缘概率,对此的解决方法是采用对比损失中负样本对的下界:

    E_{P_{G}\times P_{A_1}}log(E_{P_{G^{'}}\times P_{A_2}}exp(sim(T_{\theta ,1}(G),T_{\theta ,2}(G^{'}))))\\ \geq E_{P_{G}\times P_{A_1}\times P_{A_2}}log(E_{P_{G^{'}}}exp(sim(T_{\theta ,1}(G),T_{\theta ,2}(G^{'}))))\\ \approx E_{P_{G}\times P_{(A_1,A_2)}}log(E_{P_{G^{'}}}exp(sim(T_{\theta ,1}(G),T_{\theta ,2}(G^{'}))))

    上面的转化用到了Jensen不等式。最终我们得到对比损失的近似形式:

    \mathcal{L}(G,A_1,A_2,\theta )\approx \sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}p_{ij}\ell (G,\mathcal{A}^{i},\mathcal{A}^{j},\theta )\\ =\sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}p_{ij}\{-E_{P_{G}}sim(T_{\theta }^{i}(G),T_{\theta }^{j}(G))\\ +E_{P_{G}}log(E_{P_{G^{'}}}exp(sim(T_{\theta }^{i}(G),T_{\theta }^{j^{'}}(G^{'}))))\}

    那么现在下层优化的形式为:

    P_{(A_{1},A_{2})}\in argmax_{p\in \mathcal{P},p=[p_{ij}],i,j=1,\cdots ,|\mathcal{A}|}\{\psi (p)\}\\ \psi (p)= \sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}p_{ij}\ell (G,\mathcal{A}^{i},\mathcal{A}^{j},\theta )-\frac{\gamma }{2}\sum_{i=1}^{|\mathcal{A}|}\sum_{j=1}^{|\mathcal{A}|}(p_{ij}-\frac{1}{|\mathcal{A}|^{2}})^{2}

    这里的\psi (p)是一个强凹函数。现在可以使用梯度下降来更新采样分布P_{(A_{1},A_{2})}

    b=p^{(n-1)}+\alpha ^{''}\nabla _{p}\psi (p^{(n-1)}),p^{(n)}=(b-\mu \textbf{1})_{+}

    这个式子就是算法中的(9)式。上面的过程相当于先梯度下降然后进行概率的归一化。这里的\alpha ^{''}\in \mathbb{R}_{>0}是学习率,\mu\textbf{1}^{T}(b-\mu \textbf{1})=1的根,(\cdot )_{+}是element-wise非负运算符。\mu可以通过bi-jection方法高效查找。

    • JOAO中的多映射头

    原来的GraphCL只采用一个增强对,而现在应用了JOAO后会采用各种不同的增强对,这会导致数据增强对数据的原始分布扭曲地非常剧烈,如此训练的模型性能可能会不好。为了解决这个问题,JOAO引入了多个线性映射的head以及增强感知的选择模式。具体的,就是采用|\mathcal{A}|个线性映射,每一个对应一种增强类型,在训练时一旦某种增强方式被选用,那么它就只会通过和更新其对应的线性映射。

    用数学形式来表达就是线性映射同样服从分布P_{(g_{\Theta _{1}^{''}},g_{\Theta _{2}^{''}})}P_{(g_{\Theta _{1}^{''}},g_{\Theta _{2}^{''}})}=P_{(A_{1},A_{2})}\Theta _{1}^{''},\Theta _{2}^{''}代表线性映射的参数。那么现在就有T_{\theta ,i}=A_{i}\circ f_{\theta ^{'}}\circ g_{\Theta _{i}^{''}}(i=1,2)。引入多映射head的JOAO记作JOAOv2,其大致框架图如下:

    JOAOv2

    损失函数为:

    min_{\theta }\mathcal{L}(G,A_1,A_2,\theta ^{'},\Theta _{1}^{''},\Theta _{2}^{''}),\\ s.t.\; P_{(A_1,A_2)}\in argmax_{P_{(A_{1}^{'},A_{2}^{'})}}\{\mathcal{L}(G,A_{1}^{'},A_{2}^{'},\theta ^{'},\Theta _{1}^{''},\Theta _{2}^{''})\\ -\frac{\gamma }{2}dist(P_{(A_{1}^{'},A_{2}^{'})},P_{prior})\},\\ P_{(g_{\Theta _{1}^{''}},g_{\Theta _{2}^{''}})}=P_{(A_{1},A_{2})}

    三、实验

    1. JOAO与GraphCL手工选择的对比

    下图对比了GraphCL论文中实验结果与JOAO选择的结果:

    对比
    1. 半监督学习

    半监督学习实验:

    半监督学习
    1. 无监督学习

    无监督学习实验:

    无监督学习
    1. 迁移学习

    迁移学习实验:

    迁移学习
    1. 大规模数据集

    半监督大规模数据集实验:

    大规模数据及
    1. 总体实验结果
    实验

    相关文章

      网友评论

        本文标题:JOAO:自动化选择数据增强的GraphCL

        本文链接:https://www.haomeiwen.com/subject/tajnurtx.html