美文网首页
论文阅读“Deep Multiple Auto‑Encoder‑

论文阅读“Deep Multiple Auto‑Encoder‑

作者: 掉了西红柿皮_Kee | 来源:发表于2023-05-30 21:41 被阅读0次

    Du G, Zhou L, Yang Y, et al. Deep multiple auto-encoder-based multi-view clustering[J]. Data Science and Engineering, 2021, 6(3): 323-338.

    摘要导读

    本文作者基于多个自编码器提出了深度多视图聚类算法MVC-MAE。MVC-MAE采用自动编码器,以分层的方式捕获每个视图的非线性结构信息,并同时结合了每个视图内部的局部不变性以及任意两个视图之间的一致性和互补信息。除此之外,还将表示学习和聚类整合到一个统一的框架中,并进行联合优化。

    模型浅析
    • 数据定义
      给定数据集X=\{X^{(s)} \in \mathbb{R}^{m \times n^s}\}_{s=1}^SS是视图的数量,n^s是第s个视图的特征维度,m表示样本的数量,X^{(s)}代表第s个视图的数据,X_i^{(s)}表示第s个视图的第i个样本,X_{i, j}^{(s)}代表s视图的第(i,j)个元素。整个多视图任务的目标在于将样本分配到C_{cluster}个类簇中。两个样本之间的相似度表示为sim(X_i^{(s)},X_j^{(s)}),一般使用欧式距离或者皮尔逊相关系数等函数来计算。
    • 网络结构
      多视图聚类的核心在于有效的融合视图内和视图间信息以获取到高质量的聚类结果。基于多个自编码器的网路结构在于捕获四种类型的信息,如:层次化的非线性结构信息,局部几何信息,一致性和互补性以及聚类结构信息。
      1 层次化的非线性结构信息。这里采用的是多个深度自编码器。模型的结构就是多个深度自编码器,每个视图都对应一个自编码器模型。总体的损失函数可以表示为: 其中\odot表示对位相乘,B^{(s)}=\{B_i^{(s)}\}_{i=1}^m表示s视图对应的权重,用于为非零元素和零元素赋予不同的惩罚权重。使用这样的损失可以减轻由数据稀疏所带来的不稳定性。B^{(s)}中的每个元素定义为如下的形式: 其中\beta >0。在这种定义之下,不仅可以平滑数据流型,还能保留样本之间的相似性。
      2 局部几何信息。局部几何信息由原始输入生成的亲和图\{W^{(s)}\}_{s=1}^S来捕获。这里使用的是基于欧式距离的k-NN算法来构建对应于每个视图的亲和图。具体的生成算法如下所示: 其中,N_k({X_i^{(s)}})是样本X_i^{(s)}对应的k个近邻,j_k表示样本X_i^{(s)}的第k个近邻。
      P_{i,j}^{(s)}=P_{i,j}^{(s,s)}为样本X_i^{(s)}X_j^{(s)}s视图的联合概率,定义为如下形式: 因此,每个视图的局部集合信息可以表示为最大化如下的似然估计: 通过转化,可以等同于最小化如下的负对数似然:
      3 一致性和互补性信息。一致性和互补性信息的利用使用的是二分类的思想,使用C_{i,j}^{(s1,s2)}来表示是否来自两个视图的表示H_i^{(s_1)}H_j^{(s_2)}是否描述同一个样本。如果来自同一个样本,则C_{i,j}^{(s1,s2)}=1,否则C_{i,j}^{(s1,s2)}=0。换句话说,如果i=jC_{i,j}^{(s1,s2)}=1,否则C_{i,j}^{(s1,s2)}=0。基于这个定义,可以为多视图聚类定义一种新的交叉熵损失: 该损失意在将来自同一样本不同视图的描述之间的差异性降到最低。
      其中,P_{i,j}^{(s_1,s_2)}是联合概率: 此外,作者还考虑到一种情况:虽然两个视图表示不是来自同一个样本,即i \neq j;但是根据局部几何信息,H_i^{(s_1)}H_j^{(s_2)}应该相似,那么这两个样本表示也不应该被推远。因此,L_{2CC}^{(s_1, s_2)}可以放松到: 即推远的样本仅仅是哪些满足W_{i,j}=0的样本对。
      当视图的数量大于2时,最终的损失函数写成如下的形式:
      4 聚类结构信息。这里主要还是对学到的低维表示H^{(s)}进行了拼接得到Z,然后用于后续的融合聚类。聚类层还是沿用了DEC的聚类思想,利用Z构造了聚类损失\mathcal{L}_{CLU},同时实现聚类分配和表示学习的优化。
    • 总体损失及总体算法


      算法伪代码: (13) (14) (15) (16)

    突然想到,在构造适用于多视图聚类的二分类的时候,正负样本的不平衡问题是否会对最终的结构有影响 ==

    相关文章

      网友评论

          本文标题:论文阅读“Deep Multiple Auto‑Encoder‑

          本文链接:https://www.haomeiwen.com/subject/wmjeedtx.html