美文网首页
论文粗读“Learnable Graph Convolution

论文粗读“Learnable Graph Convolution

作者: 掉了西红柿皮_Kee | 来源:发表于2023-03-07 21:27 被阅读0次

Zhaoliang Chen, Lele Fu, Jie Yao, Wenzhong Guo, Claudia Plant, Shiping Wang,
Learnable graph convolutional network and feature fusion for multi-view learning,
Information Fusion,
Volume 95,
2023,
Pages 109-119,
ISSN 1566-2535,
https://doi.org/10.1016/j.inffus.2023.02.013.

摘要导读

在实际应用中,从不同角度描述目标的多视图数据可以促进学习算法的准确性提高。然而,在多视图数据的场景下,通过图卷积网络同时学习节点关系和图信息的工作,近年来引起了大量研究者的关注。现有的方法大多只考虑邻接矩阵的加权和,而特征融合和图融合的联合神经网络仍有待充分探索。为了解决这些问题,本文提出了一种联合深度学习框架,即可学习的图卷积网络和特征融合框架(LGCN-FF),它包括特征融合网络和可学习图卷积网络两个组件。前者的目的是从异构视图中学习潜在的特征表示,而后者通过可学习权权重和称为可微收缩激活(DSA)的带参的激活函数探索更具区分性的融合图表示。


从图中可以看出,该框架是将特征融合和图融合统一到了一个联合学习的框架中,除此之外,把框架中的很多东西都做成了可学习的形式,使得整个框架更为灵活。

模型浅析
为了共同学习特征融合和图融合,本文提出了一个端到端统一的神经网络框架,由两个主要组件组成:特征融合网络(Feature Fusion Network)和可学习的GCN(Learnable Graph Convolutional Network)。
  • Feature Fusion Network
  1. 将原始多视图表示映射到共享的隐藏空间。这里使用稀疏自编码器来探索所有视图的过完备的潜在表示。每个视图对应于一个特定于视图的稀疏自编码器,这些稀疏自编码器将原始特征映射到具有相同维度的稀疏空间。对应于v-th视图的第l层定义为如下形式: W_{sa}b_{sa}分别为权重和偏置。其对应的损失函数为 其中,\rho是保持稀疏性的值,\hat{\rho}则是隐藏神经元激活分布的平均值。
  2. 为了将不同角度的隐藏特征融合到一个共享的特征向量中,进一步利用一个全连接的神经网络来进行特征融合任务。假设在这个MLP网络中共有L层,第l-th层前馈计算为: 其中G^{(0)}=H,这里将H作为一个可学习的输入。将H映射到多个view-specific 潜在表示\{O^{(L/2,v)}\}_{v=1}^V,对应的重构损失为: 假设每个单一视图的特征可以通过全连通网络中的可训练的共同表示H进行重构,那么\mathcal{L}_{fc}被视为异构视图之间重构误差的权衡,并对共享的潜在特征进行了探索。
  • Learnable Graph Convolutional Network
    在这部分提出了一个可学习的GCN,自动集成了由多个视图生成的邻接矩阵,并学习了一个包含更具有区别性的节点关系的图。
  1. 首先对各视图的邻接矩阵做自适应的加权和: 其中初始的邻接矩阵图由KNN进行初始化,可学习视图参数\pi^{(v)}由softmax进行重新归一化。
    然而,邻接矩阵的直接加权和对于多视图图学习可能不够可行,因为所有图的线性加权和可能会在融合图中的节点之间产生不希望的连接。此外,由于邻域关系是由KNN估算的,这可能不够准确,需要采用数据驱动的修正过程,在不破坏原始图的结构和特征信息的情况下,探索更全面的图融合。
  2. 使用Differentiable Shrinkage Activation(DSA)\rho(\cdot)来修正权重邻接矩阵。GCN所用到的图都是无向图,因此可以保证\rho(A_s)也是对称的。由此,可学习的DSA定义为如下: \overline{S} \in \mathbb{R}^{m \times m}是一个参数化的可学习矩阵。由系数矩阵S的定义可知,各节点之间的关系可以被收缩到[0, 1]。
    进一步,为了减少数据的局部噪声,构建一个稀疏图,\Theta被看作以一个阈值矩阵来控制两个节点之间的边是否存在。\Theta中的每个元素被定义为: \theta=[\theta_1, \cdots, \theta_m]\theta是可学习的向量,Sigmoid (\cdot)来保证在阈值的非负性。
  3. 根据\rho(A_s)的定义,只有稀疏大于其相应阈值的节点关系信息才会被激活。DSA函数有利于提高GCN的性能,因为它具有通过系数矩阵和阈值来自动学习特征的能力。在实际的训练中,\overline{S}被随机初始化用于计算S,而\theta则被初始化为0向量用于生成\Theta。由此,第l-th层可训练的GCN被形式化为 H^{(0)}=H。即,在上一个模块中获得的可训练的H成为多个视图的唯一公共表示,并被视为GCN中节点的输入特征。这里使用2层的可训练GCN为例,来计算节点嵌入表示Z
  4. 半监督分类任务中,可训练的GCN的损失函数被定义为在有标签数据样本集合\Omega上的交叉熵损失, 其中,Y \in \mathbb{R}^{|\Omega| \times c}是由\Omega产生的不完整的标签矩阵,且|\Omega| \ll m
整体的算法流程如下:
  • 优化策略
    可以看出所提出的LGCN-FF是一种采用多步骤优化方法的端到端神经网络框架。单个优化目标无法联合优化所有的变量,因此论文中使用的是ADM策略将优化分为了四个步骤:
  1. 优化稀疏自编码中的权重和偏置
  2. 优化MLP网络fc中的权重和偏置
  3. 优化可训练的输入H
  4. 优化可学习的GCN中的参数

在一个独立的训练迭代中,每一步执行一步向前传播,然后用固定的不相关变量进行反向传播(控制变量法)。虽然所表述的问题在同一迭代中分别进行优化,前一个优化的输出成为后一个优化的输入,但整个框架采用ADM策略进行组织,使每个凸子问题都能有效地解决。


挖个ADM优化策略的坑后续填。。


相关文章

网友评论

      本文标题:论文粗读“Learnable Graph Convolution

      本文链接:https://www.haomeiwen.com/subject/zznbldtx.html