前言
-
NIPS2020中关于图半监督学习的研究:
本文研究图的半监督学习问题,当标签节点稀缺时,大多数已有的广义神经网络都存在over-smoothing、non-robustness 、 weak-generalization(鲁棒性差,泛化能力弱)等缺陷。
针对这些问题,本文提出了一个简单而有效的框架——图随机神经网络(GRAND),首先设计了一个随机传播策略来实现图数据增强。然后利用一致性正则化方法优化不同数据扩展下未标记节点的预测一致性。
引言
图上的半监督学习问题,其目的是预测给定图中只有一小部分标记节点的未标记节点的类别。
图形神经网络(GNNs)是目前一种有效的方法。
最近的研究表明,这样的传播过程带来了一些内在的问题:
- 首先,大多数 gnn 存在over-smoothing: 图卷积运算是拉普拉斯平滑的一种特殊形式,叠加多个 GNN 层往往使节点的特征无法区分。在传播过程中的耦合非线性变换会进一步加剧这一问题。
- 其次,由于大多数 gnn 都采用确定性传播(deterministic propagation),通常不够健壮。自然地,确定性传播使得每个节点与其(多跳)邻居高度依赖,使得节点很容易被潜在的数据噪声误导,并容易受到对抗性干扰(adversarial perturbations)。
- 第三个问题在于标准半监督学习的一般设置,其中标准的训练方法(针对 gnn)可以很容易地拟合稀缺的标签信息。大多数解决这个广泛问题的努力都集中在如何充分利用大量未标记的数据。在CV,近年来人们提出了一些解决这一问题的方法,如 MixMatch [3] ,UDA [40] ,通过设计数据增强方法(data augmentation)进行一致性正则化训练(consistency regularized training),这些方法在半监督图像分类中取得了很大的成功。这启发我们将这个思想应用到 gnn 中,以方便图的半监督学习。
为了对图进行数据增强:提出在 GRAND 中进行随机传播,其中每个节点的特征可以部分或全部被随机删除(dropout),然后受扰动的特征矩阵在图中传播。因此,每个节点都可以对特定的邻域不敏感,从而增加了 GRAND 的健壮性。
此外,随机传播的设计可以自然地分离特征传播和变换,在大多数 gnn 中这两者通常是相互耦合的。这使得 GRAND 能够安全地执行高阶特性传播,而不会增加复杂性,从而降低了 GRAND 的过平滑风险。
更重要的是,随机传播使每个节点能够将消息随机传递到其邻居。在图数据相同的假设下,我们可以随机地为每个节点生成不同的扩展表示。
然后利用一致性正则化(consistency regularization)方法来加强预测模型,例如,一个简单的多层感知模型(MLP) ,对同一个未标记数据的不同增强数据输出相似的预测,改善了 GRAND 在半监督环境下的泛化行为。
相关定义
给定图以及邻接矩阵。
给定节点表征和部分节点标签,图的半监督分类任务就是给出剩下没有标签节点的分类标签。
模型方法
1. Random Propagation for Graph Data Augmentation
Random Propagation 首先通过随机dropout节点,得到加入扰动的节点特征矩阵;然后利用进行特征传播得到增强特征
在这样做的过程中,每个节点的特征随机与其邻居的信号混合。同质性假设表明(homophily),相邻节点倾向于具有相似的特征和标签。这样,一个节点的丢失信息可以通过其邻居来补偿,从而在相应的增强数据中形成一个近似的表示。换句话说,随机传播允许我们为每个节点随机生成多个扩展表示。
具体的操作是:为每个节点通过伯努利分布生成mask,
然后对进行倍放缩,使得dropout前后的特征矩阵平均值相同。 然后进行特征传播,采用固定的传播形式: 最后对得到的表征利用MLP进行节点标签预测:2. Consistency Regularized Trainings
Supervised Loss 对于增强得到的S个图,计算交叉损失熵:
Consistency Regularization Loss 同时保持S个增强数据对数据预测的一致性。假定S=2,可以通过最小化两个输出的L2距离
对于多个数据增强的情况,计算平均值,然后最小化各个数据增强与平均分布的差异完整算法框架如下:
实验效果如下:
小结
这篇工作是基于图对比学习的思想对图半监督分类任务的尝试,总体工作在于其中的数据增强和一致性正则化处理。
网友评论