Du G, Zhou L, Yang Y, et al. Deep multiple auto-encoder-based multi-view clustering[J]. Data Science and Engineering, 2021, 6(3): 323-338.
摘要导读
本文作者基于多个自编码器提出了深度多视图聚类算法MVC-MAE。MVC-MAE采用自动编码器,以分层的方式捕获每个视图的非线性结构信息,并同时结合了每个视图内部的局部不变性以及任意两个视图之间的一致性和互补信息。除此之外,还将表示学习和聚类整合到一个统一的框架中,并进行联合优化。
模型浅析
- 数据定义
给定数据集,是视图的数量,是第个视图的特征维度,表示样本的数量,代表第个视图的数据,表示第个视图的第个样本,代表视图的第个元素。整个多视图任务的目标在于将样本分配到个类簇中。两个样本之间的相似度表示为,一般使用欧式距离或者皮尔逊相关系数等函数来计算。 - 网络结构
多视图聚类的核心在于有效的融合视图内和视图间信息以获取到高质量的聚类结果。基于多个自编码器的网路结构在于捕获四种类型的信息,如:层次化的非线性结构信息,局部几何信息,一致性和互补性以及聚类结构信息。
1 层次化的非线性结构信息。这里采用的是多个深度自编码器。模型的结构就是多个深度自编码器,每个视图都对应一个自编码器模型。总体的损失函数可以表示为: 其中表示对位相乘,表示视图对应的权重,用于为非零元素和零元素赋予不同的惩罚权重。使用这样的损失可以减轻由数据稀疏所带来的不稳定性。中的每个元素定义为如下的形式: 其中。在这种定义之下,不仅可以平滑数据流型,还能保留样本之间的相似性。
2 局部几何信息。局部几何信息由原始输入生成的亲和图来捕获。这里使用的是基于欧式距离的k-NN算法来构建对应于每个视图的亲和图。具体的生成算法如下所示: 其中,是样本对应的k个近邻,表示样本的第个近邻。
设为样本和在视图的联合概率,定义为如下形式: 因此,每个视图的局部集合信息可以表示为最大化如下的似然估计: 通过转化,可以等同于最小化如下的负对数似然:
3 一致性和互补性信息。一致性和互补性信息的利用使用的是二分类的思想,使用来表示是否来自两个视图的表示和是否描述同一个样本。如果来自同一个样本,则,否则。换句话说,如果则,否则。基于这个定义,可以为多视图聚类定义一种新的交叉熵损失: 该损失意在将来自同一样本不同视图的描述之间的差异性降到最低。
其中,是联合概率: 此外,作者还考虑到一种情况:虽然两个视图表示不是来自同一个样本,即;但是根据局部几何信息,和应该相似,那么这两个样本表示也不应该被推远。因此,可以放松到: 即推远的样本仅仅是哪些满足的样本对。
当视图的数量大于2时,最终的损失函数写成如下的形式:
4 聚类结构信息。这里主要还是对学到的低维表示进行了拼接得到,然后用于后续的融合聚类。聚类层还是沿用了DEC的聚类思想,利用构造了聚类损失,同时实现聚类分配和表示学习的优化。 -
总体损失及总体算法
算法伪代码: (13) (14) (15) (16)
突然想到,在构造适用于多视图聚类的二分类的时候,正负样本的不平衡问题是否会对最终的结构有影响 ==
网友评论