Han Zhao, Xu Yang, Zhenru Wang, Erkun Yang, Cheng Deng. Graph Debiased Contrastive Learning with Joint Representation Clustering. IJCAI 2021
摘要导读
通过对比正负对应的样本,图对比学习已经成为无监督图表示学习的一种主要技术。然而,现有的方法没有考虑样本中隐含的类簇信息,随机负抽样中会引入假负例样本(这种错误的负样本采样现象是普遍存在的,被称为采样偏差,如下图),导致相关的下游任务性能较差。
为此,本文提出了一个图去偏对比学习框架,它可以联合执行表示学习和聚类。具体来说,样本表示可以通过与聚类类信息对齐来优化,同时,优化后的表示可以促进聚类,从而学习到更具有辨别性的样本表示和聚类结果。更重要的是,提出的框架从不同于正例样本的类簇中随机选择负例样本。这样,利用聚类结果作为监督信号,可以有效地减少错误的负例样本。
模型浅析
给定无向图,分别是数据集对应的节点信息,边(由邻接矩阵表示),还有节点对应的属性信息。从而可以得到对角度矩阵,其中。
- 图对比学习
对比学习无非是通过正负例样本之间的对比,使得给定样本和正例样本之间的距离拉近,而推远和负例样本的距离。本文使用的目标函数如下: 其中,是样本对应的正例,是负例的集合。是共享GCN对应的映射。 - 图聚类
类簇的分配则是沿用了DEC(2016)提出的基于KL散度的聚类优化。 作为目标分布,其更新由来决定,而辅助分布则是针对每一轮样本学习到的表示进行更新。这样的设置是为了避免聚类分配不收敛的状况。
整体框架的优化目标如下: 除此之外,为了减轻错误的负例样本对聚类结果的影响,本文引入了。
:很多研究证明,##将拥有不同标签的样本作为负样本能显著提高性能##。考虑到在聚类中不包含标签信息,本文使用的是由聚类层得出的伪标签信息。为了减少中的错误的负例样本,从中删除与节点具有相同伪标签的节点,并将新的负例样本节点集表示为: 实际上,聚类会存在错误的预测,这意味着伪标签并不完全准确。因此,可能仍然有轻微的错误负例节点,但这种去偏策略仍然可以减少错误负例样本,以纠正抽样偏差。
利用图去偏的思路使用对比学习对图表示进行学习,并且使用聚类层形成相互优化的框架。想法非常直接。
网友评论