美文网首页
论文阅读“Deep Incomplete Multi-View

论文阅读“Deep Incomplete Multi-View

作者: 掉了西红柿皮_Kee | 来源:发表于2022-07-18 16:24 被阅读0次

S. Wei, J. Wang, G. Yu, C. Domeniconi and X. Zhang, "Deep Incomplete Multi-view Multiple Clusterings," 2020 IEEE International Conference on Data Mining (ICDM), 2020, pp. 651-660, doi: 10.1109/ICDM50108.2020.00074.

摘要导读

多视图聚类旨在利用来自多个异构视图的信息来促进聚类。以往的大多数工作只基于预定义的聚类标准寻找一个最优聚类,但设计这样一个能够捕获用户需要的标准是困难的。由于多视图数据的多样性,我们可以探索有意义的alternative聚类。此外,不完全多视图数据问题在现实世界中是普遍存在的,但尚未对多重聚类进行研究。为了解决这些问题,本文引入了一个深度不完全多视图多聚类(DiMVMC)框架,该框架通过优化多组解码器深度网络,实现了同时对数据视图和多个共享表示的学习。此外,它最小化了一个冗余项,以同时控制这些表示之间和不同网络参数之间的多样性。然后,从每个共享表示中生成一个独立的聚类。在基准数据集上的实验证实,DiMVMC在生成具有高多样性和高质量的多个聚类方面优于最先进的对比方法。

  • 现有的多视图聚类算法关注于多视图数据的多样性,但是聚焦于只产生一个单一的聚类结果。但是多视图中涉及到的多样性完全可以支持产生多个有意义的聚类结果。

例如,一堆具有异质视角的面部图像可以从身份、性别和情感的角度单独分组。
所有这些分组都是不同的,但都很有意义。

  • 除了关注聚类的质量,multiple clusterings还追求聚类结果的多样性。因此,越来越多人关注到多视图多聚类(MVMC)任务。一般来说,这类方法利用自表示对多视图数据的个体信息和共享信息进行挖掘,然后对个体特征和共性特征的组合进行分解,以得到多个聚类结果。但这类方法并没有考虑多视图数据缺失的情况。

在本文中综合考虑上述问题,提出了一个深度不完整多视图多聚类框架(deep incomplete multi-view multiple clusterings framework ,DiMVMC)。

模型浅析

在给定共享多视图表示P(S|{\bf H}^m)的情况下,每个视图都是相互独立的。该框架首先初始化一组共享的子空间\{{\bf H}^m\}_{m=1}^M,然后使用{\bf H}^m通过解码器Decoder_m来重构观察到的缺失数据视图。在重构操作之后,生成M个表示空间,并且那些缺失的数据被填完整。进一步使用HSIC(希尔伯特-施密特独立准则)来减少这些子空间之间的重叠,从而产生不同的聚类。

A. 产生多表示子空间
假设一个包含V个视图的多视图数据集共有N个样本。x_n^v \in \mathbb{R}^{d_v}表示第v个视图的第n个样本的特征向量,d_v是特征的维度。缺失指示矩阵\Lambda \in \{0,1\}^{V \times N}

其中,\Lambda的每一列都是对应视图的样本的状态(存在/不存在)。显然对于每个样本都需要只有存在一个视图,即满足1 \leq \sum_{v=1}^V \Lambda_{vn} \leq V

在本文中,以一种灵活的方式将具有任意视图缺失模式的样本投影到共享的子空间中,其中子空间包括可观测视图的信息。在这种情况下,每个视图都可以通过获得的共享表示来进行重建:

其中,h_i是第i个样本所共享的多视图表示,S_i=\{x_i^v\}_{v=1}^V是样本i所涉及到的所有视图表示。通过最大化P(S_i | h_i), 可以获得共享子空间\{h_i\}_{i=1}^N。但是优化上式只能得到一个子空间,并且得到单一的聚类结果。
根据多视图的多样性,多视图数据一般具有不同的分布,多个不同的子空间及聚类结果是共存的。为获取多个(M)聚类结果,上式可以扩展为学习M个不同的子空间, 其中,h_i^m是第i个共享空间的共享表示。基于S_i的不同视图,我们给出如下的建模:
在不丧失一般性的情况下,假设数据是独立且同分布的,可以推导出对数似然函数如下: 最大化似然等价于最小化重构损失∆,进一步考虑缺失案例,解码器网络的目标函数可以表示为: 优化上式,可以产生M个共享的表示空间\{{\bf H}^m\}_{m=1}^M,每个表示用于产生一个聚类结果。
与传统基于自动编码器的方案不同,DiMVMC跳过了编码器网络,并以共享子空间表示{\bf H}^m作为第m个解码器的输入来学习完整的多视图数据。

B. 减少子空间之间的冗余性
对于多个聚类,除了不同聚类的质量外,聚类之间的多样性也很重要。多样性通常是通过最小化这些子空间之间的冗余来近似获得的。
在本模型中,作者采用的是HSIC来度量希尔伯特子空间H^mH^{m'}的交叉协方差算子来估计两个子空间的依赖性。形式化为如下:

这里使用的是内积核: HSIC值越低意味着两个子空间的相关性较小。作者指出,这种经验估计比任何其他核都要简单,不需要用户定义的正则化,且具有坚实的理论基础。

C. 统一模型
通过对前两个优化目标的整合,DiMVMC的损失函数综合为如下:

其中,\Phi=\frac{1}{N^2d_{ave}^2}是一个正则化因子,d_{ave}是平均视图维度的长度。\lambda是平衡M个子空间和它们之间的多样性的超参数。通过最小化该目标,DiMVMC可以产生多个公共子空间\{{\bf H}^m\}_{m=1}^M,同时使得缺失数据完整化。由于不存在最优的解析解,这里采用迭代优化\Theta_m^v\{{\bf H}^m\}的方式。\Theta_m^v\{{\bf H}^m\}是随机进行初始化的。优化完成后,在每个得到的子空间{\bf H^m}上使用k-means,从而可以相应地生成具有质量和多样性的M个聚类结果。具体算法流程如下:
在子空间聚类中,期望子空间学出的表示是稀疏并且可以捕获类簇语义信息。这里可以选择在深度模型中添加dropout层。为了直观地实现,可以在上述损失函数中添加了一个稀疏诱导的正则化,并定义了一个 Sparse DiMVMC:

使用多个Decoder来构造M个共享子空间,类似于多头注意力机制对不同语义空间的学习。另外关于Multiple Clustering评价指标也很有趣,值得探究。

相关文章

网友评论

      本文标题:论文阅读“Deep Incomplete Multi-View

      本文链接:https://www.haomeiwen.com/subject/vetdirtx.html