Affeldt S, Labiod L, Nadif M. Spectral clustering via ensemble deep autoencoder learning (SC-EDAE)[J]. Pattern Recognition, 2020, 108: 107522.
摘要翻译
近年来,许多研究研究了经典聚类算法和深度学习方法相结合的聚类策略。这些方法要么遵循一种顺序的方法,即使用深度自动编码器学习深度表示,然后使用k-means进行聚类;要么采用一种同步的方法,其中深度表示和聚类通过优化单个目标函数共同学习。这两种策略都提高了聚类性能,但这些方法的鲁棒性受到了一些深度自动编码器设置问题的阻碍,其中包括权值初始化、层的维度和层数或迭代的数量。为了减轻这种超参数设置对聚类性能的影响,作者提出了一个新的模型,它将谱聚类和深度自编码器的优势结合在一个集成学习框架中。在各种基准数据集上进行的大量实验表明,与最先进的深度聚类方法相比,该方法具有潜力和鲁棒性。
谱聚类
谱聚类利用从数据点之间的距离推导出的对称矩阵的特征向量
聚类。基于一个目标函数将的
个数据点划分为
L
k$个特征向量(提供每个数据点的指标向量的分配)。它相当于最大化以下放松的正则化关联:

是归一化相似矩阵,其中
是相似矩阵,
是对角矩阵,其
元素是
的第
行的和。上式子的解是设置
等于
的最大的
个特征值和其对应的
个特征向量。在将
的每一行进行重新正则化,一个k-means将X的每个数据点
分配等价于
中的每一行
所对应的类簇分配。
与其他几种聚类算法(如k-means)不同,谱聚类在任意形状的数据上表现效果都很好。然而,该方法的一个局限性是由于图的拉普拉斯构造和特征分解的高复杂性,难以处理大规模数据集。针对这个特点,有人提出将每个数据点都表示为p个具有代表性的数据点的线性组合(
)。由此,数据表示
可以表示为
,其中计算了
个数据点和
个代表性数据之间的亲和度,该矩阵是是稀疏的,从而确保了比上述
的特征分解更方便有效。
模型简记
模型形式化
给定数据矩阵,首先使用
个不同超参数的DAE进行训练,得到中间层表示
。然后通过每个
构造一个图相似度矩阵
并将其融合成一个集成的图相似矩阵
。最后,在
上应用谱聚类方法。

Deep embeddings generation
个AE的结构和训练与训练单个无差异,关键在于
个AE的参数各不相同,以学习不同程度的高阶表示。这里进行赘述。至于参数的设置,可以去原论文中查看。
Graph matrix construction
在这一部分,作者使用了 和
的思想对原始的
个表示进行了转换。
- 关于
的选择
通过在各AE中间层矩阵上的kmeans聚类得到了一组类簇中心点
。这些点是接近邻域结构的
。
- 可以通过以下公式对中间层表示进行转化:
其中,表示
附近的
个最近的
。当
不在
的最近邻中时,我们将
设置为零,得到一个稀疏亲和矩阵
。
- 得到
- Ensemble of affinity matrices
虽然说了很多,但整体的方式竟然采用了多个亲和度矩阵平均的方式:
作者将它叫做双随机的块相似矩阵。现在,作者便可以使用较低的成本计算由个图矩阵
共享的
,并通过优化以下最大化问题:
优化算法
在优化算法中,作者也给出了相应的技巧,求取了左奇异矩阵。
(之后在来填坑)
网友评论