文章名称
【NeurIPS-2021】【Purdue University/Georgia Tech/Microsoft Research】Adversarial Graph Augmentation to Improve Graph Contrastive Learning
核心要点
文章旨在解决现有图对比学习方法因随机(或者说没有针对性的)图增广,而造成学习到一些冗余的、不可靠的内在联系,进而导致学习得到的GNN在下游任务上效果不佳。作者提出了AD-GCL框架,利用对抗的方法学习图增广策略,并从理论上证明了这一方法的可行性。并基于此框架,对抗的学习edge-dropping图增广方法。
上节介绍了作者的研究背景和AD-GCL的框架,本节继续介绍AD-GCL的具体实例。
研究背景
图神经网络对比学习通过拉近经过不同图增广后的图(节点)表示来利用无标注数据进行自监督学习。采用适当的自监督学习任务至关重要(其实作者这里更偏重于损失函数的选取),不同的自监督学习任务会促使GNN从图数据中捕获不同的信息,任务的类型和参数选择严重影响学习到的向量表示在下游任务的表现。然而,现有的基于InfoMax的自监督方法容易学习到一些冗余的、不鲁邦的信息,导致GNN的效果并不是最优的[40]。而Information Bottleneck则能迫使GNN学习下游任务所需的最小的信息[41]。同时图增广方法是图自监督学习的重要组成部分,如何在训练时自适应的调整图增广方法,也是图(自动)自监督学习任务的核心目标之一。基于此,作者提出了AD-GCL框架。
方法细节
图对比学习
如上所述,一些GCL采用Graph Data-Augmentation的思路来扰动图数据,减少不必要的噪声期望扰动后的视图保留了核心信息,并利用InfoMax通过拉近扰动后向量表示的距离,来学习这种信息,其具体形式如下图所示。其中,分别表示采用的图增广方法和增广方法的全集。
GDA-GCL可以看出,为了保证增广后的向量表示彼此是真的相近,换句话说,真的只去掉了redundant信息,而没有引入额外的错误或噪声,需要大量的验证(trial and error)和领域知识。
AD-GCL
为解决上述问题,作者提出了AD-GCL框架,该框架基于graph information bottleneck(GIB)。原有方法[47, 48]采用的GIB目标函数如下图所示。其中,表示两个随机变量的互信息。是上述GNN,用来得到图的向量表示。
GIB objectiveAD-GCL edge dropping
如上所述,AD-GCL的max部分,期望学习到的GNN 能够最大化原始图和其扰动图的互信息,而min部分则不断地调整,并从这个参数化的GDA中采样,使得上述互信息最小。
作者采用参数化的edge-dropping增广方法作为。作者强调,AD-GCL可以同样应用于其他GDA,比如node-dropping等,只不过,如上所述,AD-GCL的结论2要求尽可能的和下游任务保持足够的互信息,并且很多下游任务(分子节点分类)都只需要结构信息,而edge-dropping对结构信息的噪声最小,所以作者选择这个增广方法。但其他的任务同样可以。
并且作者还强调,这个这种利用下游任务的一些信息来选择大的方向并不意味着利用领域知识来设计GDA,因为仍然很宽泛,而且具体GDA(参数)还需要优化。此外,实验表明AD-GCL with edge-dropping在社交网络分类和分子属性回归方面的效果也非常好(看到这里时,刚想吐槽,这不是用了下游任务么,就被作者怼回来了,总之就是没用下游信息)。
作者提出的AD-GCL of edge-dropping的整体框架如下图所示,其中包含2个GNN模型,以及两个MLP模型,并且和共同组成了。
而对于,有包括2个重要的建模步骤,
Parameterizing 。如上所述,包括和两部分,是GNN模型,与一样用来学习图的向量表示。不同的是,该模型得到的向量表示将交给得到edge-dropping的权重,该权重用来模拟伯努利分布,也就是drop某一条边的概率。具体流程如下图所示。
dropping weightingRegularizing 。由于没有下游的标签,不能直接GIB。但是,从上述理论1中可以理解,本质就是要求与下游任务具有更多的互信息呗。而尽可能的少drop掉边可以保留更多的与下游任务相关的信息。因此,作者加入了drop边的比例的正则项,即。因此,整个min-max的目标函数如下图所示。
total loss
这里作者采用InfoNCE[40, 59, 62]来进行对比学习,采用in-batch negative sampling。具体公式如下图所示。
InfoNCE代码实现
AD-GCL的伪代码如下图所示。
algorithm of AD-GCL心得体会
GDA-GCL的核心
个人感觉,GDA-GCL的核心是如何找到合适的增广方法,确保能够去掉作者提到的redundant information,并且不会引入误差或损失有用信息。 但似乎,现在的GCL方法并没有深入讨论方法是否会引入噪声,虽然有点方法会利用某种方式自动调节图增广,算是指导增广方法不要引入过多噪声,但是并没有形式化的界定和讨论,都需要靠大量的试验和专业知识来保证可靠。
下游信息和GDA Family
作者表示,GDA是参数化的,所以有个GDA Family的概念,下游任务的一些信息可以被用来选择这个Family(个人理解是个GDA的大方向),但是参数还需要人工优化,调整或实践。所以AD-GCL是自动化的,没有利用下游任务信息的。
个人理解,这里可能的局限是,不论怎么调参GDA Family是确定的,没法像等方法那样,在多个GDA Family上做组合。
不过,问题在于,AD-GCL的理论是完备的,并且详细的论证了与下游任务互信息的关系,以及如何确保不引入过多的冗余信息。因此,在单独一个GDA Family上是更优的。
或者可以理解为两类方法的侧重点不同。作者也在附录里对比了AD-GCL和JOAO[70],效果还是优于JOAO的。
理论和实际应用
个人感觉,文中对理论过渡到讲解并不详细,并且理论分析中是假设有的,但是没有的时候具体会不会影响或者影响有多少正文里没有讨论,只是说可以没有。也许需要细致的读一下附录。
文章引用
[39] R. Linsker, “Self-organization in a perceptual network,” Computer, vol. 21, no. 3, pp. 105–117, 1988.
[40] M. Tschannen, J. Djolonga, P. K. Rubenstein, S. Gelly, and M. Lucic, “On mutual infor�mation maximization for representation learning,” in International Conference on Learning Representations, 2020.
[47] T. Wu, H. Ren, P. Li, and J. Leskovec, “Graph information bottleneck,” in Advances in Neural Information Processing Systems, 2020.
[48] J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He, “Recognizing predictive substructures with subgraph information bottleneck,” International Conference on Learning Representations, 2021.
[59] A. v. d. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,” arXiv preprint arXiv:1807.03748, 2018.
[62] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International Conference on Machine Learning. PMLR, 2020, pp. 1597–1607.
网友评论