美文网首页人工智能读书
Deep Graph Infomax:互信息最大化的无监督图对比

Deep Graph Infomax:互信息最大化的无监督图对比

作者: 酷酷的群 | 来源:发表于2022-04-06 18:58 被阅读0次

论文标题:DEEP GRAPH INFOMAX
论文链接:https://arxiv.org/abs/1809.10341
论文来源:ICLR 2019

之前的相关博客:
MINE:随机变量互信息的估计方法
Deep InfoMax:基于互信息最大化的表示学习

一、概述

目前主流的无监督图表示学习方法主要依赖于基于随机游走的,然而这一类的方法受到诸多限制。最显著的是,已知的随机游走目标过分强调接近性信息,而牺牲了结构信息,并且方法的效果高度依赖于超参数的选择。本文提出的方法基于互信息估计,依赖于训练一个统计网络作为分类器来区分开组两个随机变量联合分布和边缘分布乘积的样本。本文的方法从Deep InfoMax改进而来,称为Deep Graph Infomax,可以应用在直推式和归纳式的图表示学习任务中。

二、方法

  1. 无监督图表示学习

首先对于一个图我们有一系列节点特征X=\left \{\vec{x}_{1},\vec{x}_{2},\cdots ,\vec{x}_{N}\right \}N代表节点数量,\vec{x}_{i}\in \mathbb{R}^{F}代表节点特征。另外节点之间的关系信息用邻接矩阵A\in \mathbb{R}^{N\times N}A可以包含任意的实数(甚至是任意边的特征),也可以是binary的。

我们的目标是学习一个encoder\mathrm { E }:\mathbb{R}^{N\times F}\times \mathbb{R}^{N\times N}\rightarrow \mathbb{R}^{N\times F^{'}},也就是\mathrm{E}(X,A)=H=\left \{\vec{h}_{1},\vec{h}_{2},\cdots ,\vec{h}_{N}\right \}\vec{h}_{i}\in \mathbb{R}^{F^{'}}代表节点的高级特征,这些特征将被用于下游任务。

本文主要关注图卷积encoder。值得注意的是,一个节点的特征\vec{h}_{i}集合了图的一部分子图信息,而不是仅包含这个节点本身。接下来\vec{h}_{i}将被称为patch表示。

  1. 局部-全局互信息最大化

本文的方法依赖于最大化局部互信息,也就是说我们希望学习能够捕获图全局信息(由summary向量\vec{s}表示)的局部节点特征。

为了获得summary向量\vec{s},我们利用一个readout函数\mathrm{R}:\mathbb{R}^{N\times F^{'}}\rightarrow \mathbb{R}^{F^{'}}来将patch表示聚合成图表示,也就是\vec{s}=\mathrm {R}(\mathrm{ E}(X,A))

为了能够最大化互信息,本文采用一个discriminator\mathrm { D }:\mathbb{R}^{F^{'}}\times \mathbb{R}^{F^{'}}\rightarrow \mathbb{R}\mathrm{D}(\vec{h}_{i},\vec{s})代表这个patch-summary对的概率得分。

\mathrm{ D}的负样本通过将(X,A)\vec{s}与另一个图(\tilde{X},\tilde{A})\vec{\tilde{h}}_{i}配对得到。在面对多图数据时,这样的图从训练集中获得。而对于单图数据,则应用一个破坏函数(corruption function)\mathrm { C}:\mathbb{R}^{N\times F}\times \mathbb{R}^{N\times N}\rightarrow \mathbb{R}^{M\times F}\times \mathbb{R}^{M\times M}来获得一个负样本的图,也就是(\tilde{X},\tilde{A})=\mathrm { C }(X,A)。负采样方法的选择能够控制取舍图的特定的结构信息,可以根据任务所需要捕获的特征来进行设计。总结来说,本文方法的正样本为(\vec{h}_{i},\vec{s}),负样本为(\vec{\tilde{h}}_{i},\vec{s})

损失函数采用噪声对比型二值交叉熵损失,以此来最大化\vec{h}_{i}\vec{s}联合分布(正样本)和边缘分布的乘积(负样本)之间的互信息(下面的目标函数应该最大化):

\mathrm{L}=\frac{1}{N+M}\left (\sum_{i=1}^{N}E_{(X,A)}[log\mathrm{D}(\vec{h}_{i},\vec{s})]+\sum_{j=1}^{M}E_{(\tilde{X},\tilde{A})}[log(1-\mathrm{D}(\vec{\tilde{h}}_{i},\vec{s}))]\right )

所有patch表示都被驱动保持与图表示的互信息,这有助于保持patch层级的相似性,举例来说,图中距离较远但是有相同结构特征的节点之间可以建立联系。

  1. 算法

假设在单图情况下,Deep Graph Infomax的算法流程如下:
①使用破坏函数采样负样本:(\tilde{X},\tilde{A})\sim \mathrm { C }(X,A)
②通过encoder获取输入图的patch表示:H=\mathrm { E}(X,A)=\left \{\vec{h}_{1},\vec{h}_{2},\cdots ,\vec{h}_{N}\right \}
③通过encoder获取负样本的patch表示:\tilde{H}=\mathrm { E}(\tilde{X},\tilde{A})=\left \{\vec{\tilde{h}}_{1},\vec{\tilde{h}}_{2},\cdots ,\vec{\tilde{h}}_{N}\right \}
④通过readout函数获取输入图的图表示:\vec{s}=\mathrm { R}(H)
⑤更新\mathrm { E},\mathrm {R},\mathrm{D}的参数来最大化上面的目标函数。

下图以一种直观的方式展示了算法的流程:

算法

三、实验

本文对直推式(transductive)和归纳式(inductive)任务都进行了实验,其中既包括单图配置,也包括多图配置,并且主要进行分类任务实验。在实验中DGI在完全无监督的情况下学习表示,然后使用简单分类器(逻辑回归)进行微调。

  1. 数据集

下表展示了本次实验的数据集配置情况:

数据集
  1. 实验设置

对于不同类型(直推式、大图归纳式以及多图归纳式)的实验,采用不同的encoder和破坏函数。

  • 直推式学习

encoder采用一个一层GCN:

\mathrm {E}(X,A)=\sigma (\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}X\Theta )

这里\hat{A}=A+I_{N}是邻接矩阵加上一个自连接,\hat{D}^{-\frac{1}{2}}是对应的度矩阵,\hat{D}_{ii}=\sum _{j}\hat{A}_{ij},激活函数\sigma采用参数化ReLU(PReLU),\Theta \in \mathbb{R}^{F\times F^{'}}是应用在每个节点上的可学习的线性变换矩阵,F^{'}=512(由于受到内存限制在Pubmed数据集上为F^{'}=256)。

此设置中使用的破坏函数旨在鼓励表示正确编码图中不同节点的结构相似性,因此采用的破坏函数保留原有的邻接矩阵\tilde{A}=A,而对于\tilde{X},则通过对X进行按行打乱来获得。这样获得的负样本图拥有与原图一样的节点,但是位于不同的位置。

  • 大图上的归纳式学习(只有Reddit数据集)

由于GCN的卷积核严重依赖于固定和已知的邻接矩阵,所以在当前配置下采用mean-pooling传播规则的GraphSAGE-GCN:

MP(X,A)=\hat{D}^{-1}\hat{A}X\Theta

上式中与\hat{D}^{-1}相乘意味着执行了一个标准化加和(也就是mean-pooling)。最终采用的encoder为一个三层mean-pooling模型以及跳跃连接:

\widetilde{MP}(X,A)=\sigma (X\Theta ^{'}||MP(X,A))\\ \mathrm{E }(X,A)=\widetilde{MP}_{3}\widetilde{MP}_{2}\widetilde{MP}_{1}(X,A),A),A)

||代表拼接操作,也就是说中心节点和它的邻居节点分开处理。另外F^{'}=512且激活函数\sigma采用参数化ReLU(PReLU)。

由于图的规模过大导致GPU显存不足,因此额外采用一种下采样策略。具体的方法是首先采样一个minibatch的节点,然后采样每个节点的邻域以最终获得以每个节点为根节点的子图,在每个子图的采样中对于1,2,3层分别采样10,10,25个邻居节点,因此每个子图就有1+10+100+2500=2611个节点。只有获取中心节点i的patch表示的计算被执行,这些表示然后被用来获得这个minibatch的summary向量\vec{s}。在实验中使用minibatch大小为256

破坏函数与直推式配置类似,但是将minibatch内每个节点采样得到的子图看做独立的图进行破坏(也就是按照行单独打乱这些子图的特征)。这很可能使得中心节点在负样本图中的特征被替换为采样邻居的特征,从而增加了负样本的多样性。最后在中心节点中得到的patch表示被输入给discriminator。

上述过程如下图所示:

框架
  • 多图上的归纳式学习(只有PPI数据集)

对于PPI数据集,受以前成功的监督架构的启发,该配置下的encoder如下:

H_{1}=\sigma (MP_{1}(X,A))\\ H_{2}=\sigma (MP_{2}(H_{1}+XW_{skip},A))\\ \mathrm {E}(X,A)=\sigma (MP_{3}(H_{2}+H_{1}+XW_{skip},A))

这里W_{skip}是参数矩阵,同样的每个MPF^{'}=512且激活函数\sigma采用参数化ReLU(PReLU)。

负样本就是训练集中的其他图,为了增强负样本的多样性,也会对采样到的负样本图的特征进行dropout。另外实验发现,在将学习到的表示提供给逻辑回归模型之前,将它们标准化是有益的。

  • Readout, discriminator等

不同的数据集配置采用同样的readout函数和discriminator架构。

Readout函数采用简单的节点特征平均:

\mathrm{R}(H)=\sigma \left (\frac{1}{N}\sum_{i=1}^{N}\vec{h}_{i}\right )

这里\sigma是sigmoid函数。随着图的尺寸增大,这种简单平均的策略的效果可能会减弱,这时可以采用一些更先进的方法来替代,比如set2vec、DiffPool等。

Discriminator采用以下结构:

\mathrm{D}(\vec{h}_{i},\vec{s})=\sigma (\vec{h}_{i}^{T}W\vec{s})

其中W是参数矩阵,\sigma是sigmoid函数。

另外所有模型使用Glorot initialization初始化,其他具体实验设置参看原文。

  1. 实验结果

下图展示了在多个数据集上的实验结果:

实验

另外使用t-SNE进行了特征的可视化:

t-SNE

相关文章

网友评论

    本文标题:Deep Graph Infomax:互信息最大化的无监督图对比

    本文链接:https://www.haomeiwen.com/subject/bbxhsrtx.html