论文粗读“Learnable Graph Convolution

作者: 掉了西红柿皮_Kee | 来源:发表于2023-03-07 21:27 被阅读0次

推荐系统论文阅读（三十四)-京东：解耦可替代性和互补性的DecG
论文笔记 | 使用GCN建模关系数据
图(graph)神经网络--LGCN大图卷积网络(tensorf
论文粗读“Graph Debiased Contrastive
2018-07-13
两种或者多种特征融合如何操作？
Spectral Graph Convolution Netwo
Spectral Graph Convolution Netwo
EfficientNet
图卷积网络（GRAPH CONVOLUTIONAL NETWOR

Zhaoliang Chen, Lele Fu, Jie Yao, Wenzhong Guo, Claudia Plant, Shiping Wang,
Learnable graph convolutional network and feature fusion for multi-view learning,
Information Fusion,
Volume 95,
2023,
Pages 109-119,
ISSN 1566-2535,
https://doi.org/10.1016/j.inffus.2023.02.013.

摘要导读

在实际应用中，从不同角度描述目标的多视图数据可以促进学习算法的准确性提高。然而，在多视图数据的场景下，通过图卷积网络同时学习节点关系和图信息的工作，近年来引起了大量研究者的关注。现有的方法大多只考虑邻接矩阵的加权和，而特征融合和图融合的联合神经网络仍有待充分探索。为了解决这些问题，本文提出了一种联合深度学习框架，即可学习的图卷积网络和特征融合框架（LGCN-FF），它包括特征融合网络和可学习图卷积网络两个组件。前者的目的是从异构视图中学习潜在的特征表示，而后者通过可学习权权重和称为可微收缩激活（DSA）的带参的激活函数探索更具区分性的融合图表示。

从图中可以看出，该框架是将特征融合和图融合统一到了一个联合学习的框架中，除此之外，把框架中的很多东西都做成了可学习的形式，使得整个框架更为灵活。

模型浅析

为了共同学习特征融合和图融合，本文提出了一个端到端统一的神经网络框架，由两个主要组件组成：特征融合网络（Feature Fusion Network）和可学习的GCN（Learnable Graph Convolutional Network）。

Feature Fusion Network

将原始多视图表示映射到共享的隐藏空间。这里使用稀疏自编码器来探索所有视图的过完备的潜在表示。每个视图对应于一个特定于视图的稀疏自编码器，这些稀疏自编码器将原始特征映射到具有相同维度的稀疏空间。对应于 $v$ -th视图的第 $l$ 层定义为如下形式： $W_{sa}$ 和 $b_{sa}$ 分别为权重和偏置。其对应的损失函数为其中， $\rho$ 是保持稀疏性的值， $\hat{\rho}$ 则是隐藏神经元激活分布的平均值。
为了将不同角度的隐藏特征融合到一个共享的特征向量中，进一步利用一个全连接的神经网络来进行特征融合任务。假设在这个MLP网络中共有 $L$ 层，第 $l$ -th层前馈计算为：其中 $G^{(0)}=H$ ，这里将 $H$ 作为一个可学习的输入。将 $H$ 映射到多个view-specific 潜在表示 $\{O^{(L/2,v)}\}_{v=1}^V$ ，对应的重构损失为：假设每个单一视图的特征可以通过全连通网络中的可训练的共同表示 $H$ 进行重构，那么 $\mathcal{L}_{fc}$ 被视为异构视图之间重构误差的权衡，并对共享的潜在特征进行了探索。

Learnable Graph Convolutional Network
在这部分提出了一个可学习的GCN，自动集成了由多个视图生成的邻接矩阵，并学习了一个包含更具有区别性的节点关系的图。

首先对各视图的邻接矩阵做自适应的加权和：其中初始的邻接矩阵图由KNN进行初始化，可学习视图参数 $\pi^{(v)}$ 由softmax进行重新归一化。
然而，邻接矩阵的直接加权和对于多视图图学习可能不够可行，因为所有图的线性加权和可能会在融合图中的节点之间产生不希望的连接。此外，由于邻域关系是由KNN估算的，这可能不够准确，需要采用数据驱动的修正过程，在不破坏原始图的结构和特征信息的情况下，探索更全面的图融合。
使用Differentiable Shrinkage Activation（DSA） $\rho(\cdot)$ 来修正权重邻接矩阵。GCN所用到的图都是无向图，因此可以保证 $\rho(A_s)$ 也是对称的。由此，可学习的DSA定义为如下： $\overline{S} \in \mathbb{R}^{m \times m}$ 是一个参数化的可学习矩阵。由系数矩阵 $S$ 的定义可知，各节点之间的关系可以被收缩到[0, 1]。
进一步，为了减少数据的局部噪声，构建一个稀疏图， $\Theta$ 被看作以一个阈值矩阵来控制两个节点之间的边是否存在。 $\Theta$ 中的每个元素被定义为： $\theta=[\theta_1, \cdots, \theta_m]$ ， $\theta$ 是可学习的向量，Sigmoid $(\cdot)$ 来保证在阈值的非负性。
根据 $\rho(A_s)$ 的定义，只有稀疏大于其相应阈值的节点关系信息才会被激活。DSA函数有利于提高GCN的性能，因为它具有通过系数矩阵和阈值来自动学习特征的能力。在实际的训练中， $\overline{S}$ 被随机初始化用于计算 $S$ ，而 $\theta$ 则被初始化为0向量用于生成 $\Theta$ 。由此，第 $l$ -th层可训练的GCN被形式化为 $H^{(0)}=H$ 。即，在上一个模块中获得的可训练的 $H$ 成为多个视图的唯一公共表示，并被视为GCN中节点的输入特征。这里使用2层的可训练GCN为例，来计算节点嵌入表示 $Z$ ：
半监督分类任务中，可训练的GCN的损失函数被定义为在有标签数据样本集合 $\Omega$ 上的交叉熵损失，其中， $Y \in \mathbb{R}^{|\Omega| \times c}$ 是由 $\Omega$ 产生的不完整的标签矩阵，且 $|\Omega| \ll m$ 。

整体的算法流程如下：

优化策略
可以看出所提出的LGCN-FF是一种采用多步骤优化方法的端到端神经网络框架。单个优化目标无法联合优化所有的变量，因此论文中使用的是ADM策略将优化分为了四个步骤：

优化稀疏自编码中的权重和偏置

优化MLP网络fc中的权重和偏置

优化可训练的输入 $H$

优化可学习的GCN中的参数

在一个独立的训练迭代中，每一步执行一步向前传播，然后用固定的不相关变量进行反向传播（控制变量法）。虽然所表述的问题在同一迭代中分别进行优化，前一个优化的输出成为后一个优化的输入，但整个框架采用ADM策略进行组织，使每个凸子问题都能有效地解决。

挖个ADM优化策略的坑后续填。。

推荐系统论文阅读（三十四)-京东：解耦可替代性和互补性的DecG
论文：论文题目：《Decoupled Graph Convolution Network for Inferr...
论文笔记 | 使用GCN建模关系数据
本文主要复述论文["Modeling Relational Data with Graph Convolution...
图(graph)神经网络--LGCN大图卷积网络(tensorf
LGCN(Large-Scale Learnable Graph Convolutional Networks )...
论文粗读“Graph Debiased Contrastive
Han Zhao, Xu Yang, Zhenru Wang, Erkun Yang, Cheng Deng. G...
2018-07-13
Graph Convolutional Network（GCN）微信公众号文章 Graph Convolution...
两种或者多种特征融合如何操作？
paper: MMGCN: Multi-modal Graph Convolution Network for P...
Spectral Graph Convolution Netwo
Convolution:「1」 Spatial Convolution「2」 Spectral Convoluti...
Spectral Graph Convolution Netwo
从上面的推导中可以看到原本的卷积运算，在图上的公式就是其中表示的是的特征矩阵，但是很容易知道的就是对于很多矩阵，...
EfficientNet
论文：EfficientNet: Rethinking Model Scaling for Convolution...
图卷积网络（GRAPH CONVOLUTIONAL NETWOR
注：内容非原创，仅作翻译原文链接：http://tkipf.github.io/graph-convolution...