论文阅读“A Clustering-guided Contras

作者: 掉了西红柿皮_Kee | 来源:发表于2023-03-04 20:23 被阅读0次

Ke G, Chao G, Wang X, et al. A Clustering-guided Contrastive Fusion for Multi-view Representation Learning[J]. arXiv preprint arXiv:2212.13726, 2022.

摘要导读

在过去的二十年里，多视图表示学习领域取得了越来越快的进展，多视图方法可以从不同的领域提取有用的信息，促进了其应用程序的发展。然而，该社区面临着两个挑战： i)如何从大量的未标记的数据中学习鲁棒的表示，以对抗噪声或不完整视图的情况；ii)在各种下游任务中，如何平衡视图的一致性和互补性。为此，本文利用深度融合网络，将各视图特定的表示融合到视图公共表示中，提取高级语义来获得鲁棒表示。此外，采用了一个聚类任务来指导融合网络，以防止得出平凡的解决方案。为了平衡一致性和互补性，提出的模型中设计了一个非对称的对比策略，来对齐视图公共表示和每个视图的特定表示。以上这些模块被纳入到一个统一的框架中，称为 Clustering-guided Contrastive Fusion（CLOVEN）。在不完全视图数据的情况下，提出的方法可以更好地抵抗噪声干扰。可视化分析表明，CLOVEN可以保留视图特定表示的内在结构，同时提高了视图表示的紧凑性。

模型浅析

从模型图的设计可以看出，该模型将多视图融合的过程也做成了深度融合的形式。简单来说，设计了一个相对复杂的融合模块，而在融合模块之后也是一个常规的聚类驱动的反调。因为前序的View-specific Encoders都是常规操作，这里对其所用的结构不进行赘述，各位可移步到实现细节的部分看各个视图编码器的结构。这里主要对融合模块，以及所采用的非对称对比策略进行分析。

融合模块的结构
多视图融合的目标是将视图特定的表示集成到一个紧凑的表示空间中，得到视图公共表示。与浅层融合（直接拼接或者带权相加）不同，该模块的设计是为了逐层提取有价值的特征信息。假设这种方法可以产生语义更丰富、更紧凑、更有表达的视图公共表示。

最简单的方式是使用堆叠的全连接层（vanilla MLP），将视图特定的表示映射到低维的语义表示空间中：然而，先前的工作表明，当网络变得更深（即层数增加）时，该网络可能会学习到这个无价值的解决方案。因此，这里引入了如下的残差块（residual block）：其中 $norm(\cdot)$ 表示batch normalization。
为提高 $Z$ 的表示能力，作者设计了两个子模块ScaleBlock和LatentBlock分别用于将中间层升维为输入的2倍然后再映射到输入维度以及将输入降维到一半再映射到输入维度。升维的过程可以看成是稀疏编码的过程，将会增加嵌入表示的多样性，而降维表示等价于information bottleneck，会增强中间层的表示能力。两个模块所对应的操作分别可以形式化为如下：因此，文中的残差块可以表示为：该模块使融合网络更加深入，同时减轻了深层网络的负面影响。

非对称对比策略作者这里提到的非对称对比主要说的是并不是视图之间的两两对比，主要有以下两点原因：（1）会破坏多视图内部的结构，降低表示的多样性（2）如果遇到模型崩溃的情况将会丢失掉所有视图的信息。不同于单视图使用增强的数据进行对比，在多视图的设置中--假设不同的视图是各种形式的增强，并且一旦发生崩溃，是无法区分哪些是原始视图的。而使用非对称的对比策略所学到的额外的表示包含了所有视图的信息，可以直接作为视图公共表示用于下游任务。因此，两种级别的对比损失可以由如下定义： $p(\cdot)$ 是一个由三层全连接网络组成的映射函数，用于将表示 $Z$ 映射到对比空间。同理 $g(\cdot)$ 用于将 $Z$ 映射到聚类空间，得到样本到每个类簇的概率值。 $sim(\cdot)$ 表示余弦相似度。
最终的策略为：而后面那一项是为了避免所有样本都分到同一个类簇中，其计算方式如下：
聚类驱动
最终的任务型驱动使用的是deep divergence-based clustering 损失：和DEC所构造的聚类损失类似， $\mathcal{L}_{ddc}$ 也算是较为成熟的聚类驱动损失。这里留个坑，改天再来填。
Total Loss