美文网首页
An overview of recent multi-view

An overview of recent multi-view

作者: zelda2333 | 来源:发表于2021-10-02 21:42 被阅读0次

    论文:Neurocomputing 2020

    摘要

    随着传感器和物联网的广泛应用,多视图数据变得越来越普遍和容易获取。跟只从单一角度描述对象的传统数据相比,多视图数据在语义上更丰富、更有用,但也更复杂。由于传统的聚类算法无法处理此类数据,多视图聚类成为研究热点。在本文中,我们回顾了一些最新的多视图聚类算法,并将其合理地分为三类。为了评估它们的表现,我们在七个真实世界的数据集上进行了广泛的实验。采用了三种主流度量方法,包括聚类精度、归一化互信息和纯度。在实验结果和大量文献阅读的基础上,讨论了当前多视角聚类存在的问题,并指出了未来可能的研究方向。本研究为相关领域的研究者提供了一些启示,并可能进一步推动多视角聚类算法的发展。

    1.介绍

    聚类是一个比较传统的问题,已经存在很长时间了。在信息时代,数据量呈指数级爆炸式增长,因此更有必要对相似对象进行理性分类,以减少数据混淆程度,帮助研究者更容易区分其内在逻辑。目前,聚类算法被广泛应用于数据挖掘、计算机视觉、模式识别等领域。一些著名的聚类算法,如 K-均值 (K-means) 、谱聚类 (spectral clustering) 等,发挥着越来越重要的作用。

    经过多年的发展,传统的单视角聚类研究几乎达到了瓶颈。出现这种情况的主要原因是数据集只从单一的方面描述对象,不能准确地掌握对象的全面信息。随着多媒体技术的飞速发展,数据的采集也不像以前那么严格了。多视图数据开始大量涌现,这意味着相同的对象从不同的角度进行描述。例如,新闻可以用多种语言报道,同一个人可以从不同的方向被相机拍摄。虽然最终数据的形式可能不同,但它们都代表相同的东西。因此,多视图学习在聚类问题中的应用产生了许多针对多视图数据的新多视图聚类算法。

    最原始的多视图聚类是简单地将所有数据特征拼接起来,然后使用它们进行聚类。这显然没有利用不同视图之间的信息互补性,而且也没有任何可解释性。然后,提出了一些基于混合模型和期望最大化(EM)算法[18]的新方法[16,17],其核心思想是为每个聚类学习一个模型,并将其集成到一个统一的模型中。由于k-means的简单性,许多研究者试图基于其理论构建多视图数据模型,包括论文[19-21]。在目前的工作中,由谱聚类和其他基于图的方法衍生出来的多视图聚类算法占了很大一部分。在这些研究中[22-25],如何根据不同视图的实际贡献水平将其数据进行组合成为研究的重点。在所有视图合并后,一些工作对传统的谱聚类框架进行了修改。换句话说,他们不是致力于获得一个统一的相似矩阵,而是学习一个最终的指标矩阵,直接用于聚类。子空间聚类[26-28]可以有效地降低数据的维数,这也因其独特的性质在多视图聚类领域得到了注意,本文[29-33]的工作就是在其思想的指导下学习数据的子空间表示来进行聚类。基于非负矩阵分解的多视图聚类[34-38]是为了学习,指标矩指标矩阵而设计的阵的数学形式与多视图子空间聚类非常相似,区别在于最终学习的矩阵的维数和用途与前者不同。此外,不同数据特征的融合应考虑到它们之间的差距在现实中可能非常大,这项工作[39]将来自不同视图的原始数据投影到相同的低维数据空间,其中采用典型相关分析(CCA)来测量相关误差,然后用一些传统的聚类算法对数据进行分组。相反,文献[3,40]提出采用CCA的内核版本将数据投射到高维空间。

    目前,关于多视图聚类的综述非常少,因此我们的工作非常有必要。总之,本文的贡献如下:

    • 我们介绍的算法都是2016年以后的,针对的是多视图聚类领域的最新发展,填补了以往综述的空白。

    • 为了更好地表达算法的核心思想,对每个算法进行了更详细的描述。此外,我们将这些方法分为基于图的模型、基于空间学习的模型和基于二进制代码学习的模型,这些方法很容易掌握这些算法之间的异同。

    • 我们使用7个数据集来测试所有算法,并应用3个指标来评估它们。最后,我们以表格形式给出了最终结果,并提供了一些可视化的结果,便于更直观地理解算法的性能。

    • 基于大量文献阅读和实验结果,针对当前多视角聚类领域面临的挑战,提出未来潜在的研究方向,为感兴趣的研究者提供一些视角。

    以下各节安排如下。在第二节中,我们介绍了八种多视图聚类算法,展示了它们的核心公式和主要步骤。第3节介绍了数据集、评估指标、实验结果和可视化。第4节讨论了当前的挑战和未来的研究方向。第五部分对全文进行了总结。

    2. 近期多视图聚类算法概述

    首先,需要在此规定一些常用数学符号的含义。
    X=\{X^1,X^2,\dots,X^m\}\ 代表拥有 m 个视图的数据集,其中,X^v\in R^{d^v\times n},一些算法要求数据集输入维度为n\times d^v,我们将在这些算法中强调这种差异。
    \{x^v_i\}^n_{i=1}是第 v 视图中的样本集。
    单位矩阵和每个元素为1的列向量分别用I1表示,在具体算法中具有不同的维度。
    0 表示在不同场景中所有元素都为 0 的列向量或矩阵。
    L_S 表示由相似度矩阵 S 构造的拉普拉斯矩阵。
    Tr(·) 表示矩阵的迹。

    接下来,我们根据基于图的模型、基于空间学习的模型和基于二进制代码学习的模型的分类方法,分别介绍了八种多视图聚类算法。

    2.1.基于图的模型

    基于图的聚类算法是目前最流行的聚类方法之一。它以构建数据的相似性矩阵的目标,然后采用典型的谱聚类算法或其他方法进行最终的标签分布。基于图的算法模型的构建也受到多视图聚类领域的关注。

    2.1.1. AMGL

    在基于图的多视图聚类中,如何合并多个视图是关键,这一步的核心是为每个视图分配适当的权重。一些现有的研究[39,41]并不在意不同视图的重要性,而另一些[22,24,42]通过引入额外的超参数来了解每个视图的权重,但超参数选择对聚类效果的影响不容低估。因此,Nie等人[43]提出了无参数自动加权多图学习(AMGL),它通过修改传统的谱聚类模型来实现权重的自动分配,并且不需要任何超参数。此外,本文的总体框架可以应用于多视图聚类和半监督分类,而后者在本文中不涉及。

    在谱聚类中,最终的目标函数写为
    \min \limits_{F^TF=I} Tr(F^TL_SF). (1)
    基于上述公式,作者提出了AMGL,其数学表达式如下:
    \min \limits_{F^TF=I} \sum_{v=1}^{m}\sqrt{Tr(F^TL^v_SF)}. (2)
    本式中没有定义权重因子,但在构造公式(2)的拉格朗日函数后,进一步求出F的偏导数并将导数设置为零,权重因子w^v将包含在公式中,关键的两个步骤如下:

    \sum_{v=1}^{m}\sqrt{Tr(F^TL^v_SF)}+G(\wedge,F). (3)
    \sum_{v=1}^{m} w^{v}\frac{\partial Tr(F^TL^v_SF)}{\partial F}+ \frac{\partial G(\wedge,F)}{\partial F}=0. (4)

    这里\wedge表示拉格朗日乘子,等式(3)中的第二项是根据 F 约束的形式化项。最有趣的是,经过推导,很容易发现w^v的数学表达式为:
    w^v= 1/(2\sqrt{Tr(F^TL^v_SF)}). (5)
    但是,w^v显然不是一个固定值,它会随着 F 的变化而变化。但当将其视为常数时,则将公式(2)转化为如下问题:
    \min \limits_{F^TF=I} \sum_{v=1}^{m}Tr(F^TL^v_SF). (6)

    利用上式计算F,然后根据公式(5)更新w^v的值,通过迭代得到两者的最优值。同时我们还可以看到,如果一个视图的贡献很大,Tr(F^TL^v_SF)就会变小,而对应的w^v值就会变大,这是符合实际情况的。

    为了突出AMGL与需要额外超参数的自动学习权值的模型的区别,我们将需要额外超参数的自动学习权值的模型的目标函数写了出来,与前者进行比较。
    \min \limits_{F^TF=I} \sum_{v=1}^{m}(w^v)^\gamma Tr(F^TL^v_SF)
    s.t. \sum_{v=1}^{m}w^v=1,w^v\geq0. (7)

    这里\gamma是所谓的超参数,它的值一般设置为非负,用来保持权值分配的平滑。在实际的算法操作中,其细微的变化可能会对算法的性能产生很大的影响。显然,在AMGL模型中没有额外的参数,可以学习到最优的w^vF。同时,w^v的计算公式表明,它并不是完全独立的,而是与F的值密切相关的。AMGL的主要步骤见算法1。

    算法1
    算法1 AMGL
    输入:X=\{X^1,X^2,\dots,X^m\}\拥有 m 个视图的数据集,其中,X^v\in R^{n\times d^v},簇类为k
    输出:指标矩阵F
    1:初始化每个视图的权重 w^v= \frac{1}{m};计算每个视图对应的拉普拉斯矩阵L^v_S;计算 L_S=\sum_{v=1}^{m}w^vL^v_S
    2: while 不收敛 do
    3:通过公式(6)计算FL^S的2到k + 1最小特征值;
    4:通过公式(7)更新w^v
    5:end while

    2.1.2. SwMC

    在基于图的多视图聚类中,如何为多个视图分配合适的权重一直是一个难题。文献[44-46]提出了一些解决方案,但这些方案要么是通过人为干预实现的,要么是通过先验知识实现的,这并不能保证分布结果与每个视图的实际贡献相一致。Nie等人[47]提出了一种可行的解决方案,即自动为不同视图分配合适的权值,称为自加权多视图聚类(self - weighted Multiview Clustering, SwMC)。同时,鉴于传统的基于图的聚类方法的执行过程是,一旦目标图被求解,就需要一些简单的聚类算法(如k-means)来将每个点分配给特定的聚类,SwMC可以省略这一步骤,以减轻由于应用额外的聚类方法而导致的不稳定性。

    SwMC之所以可以跳过后处理过程,是因为它将约束拉普拉斯秩(Constrained Laplacian Rank, CLR)方法[48]应用于多视图聚类。CLR通过引入矩阵秩限学习一个新的但更可靠的相似矩阵S,该矩阵秩限(matrix rank limit)可直接用于聚类。这句话用一个数学公式表示,如下所示:

    其中A是根据原始数据计算的相似性矩阵。在使用CLR进行多视图聚类时,它引入了一个超参数来增加约束以获得更好的解决方案。因此,目标写为

    其中A^v为第v个视图对应的相似矩阵,w为由w_1, w_2, \dots, w_m组成的列向量,\gamma的值指定为大于0。在最后一项的约束下,保证了权重分布的平滑性。但聚类结果对\gamma的依赖程度非常大,取值过大或过小都会直接影响权重的分配,导致聚类精度下降。因此,Nie等人[47]进一步提出了一种新的去除超参数\gamma的算法模型,即SwMC。新的目标函数如下:

    这个公式优雅而简洁。更微妙的是,我们在这个等式中看不到权重的定义。然而,在推导拉格朗日乘数法后,上述公式调整为以下形式:

    这里w^v = 1/(2\left \| S−A^v\right \|_F),并被认为是求解S的固定值。我们应该注意到,w^v的值在计算S时自然更新。作者证明了SwMC是收敛的,因此经过迭代可以得到Sw^v的最优解。该方法的一般步骤如算法2所示。

    算法2
    算法2 SwMC
    输入:A=\{A^1,A^2,\dots,A^m\}\拥有 m 个视图的数据集,其中,A^v\in R^{n\times n},簇类为k
    输出:相似矩阵S \in R^{n\times n}
    1:初始化每个视图的权重 w^v= \frac{1}{m}
    2: while 不收敛 do
    3:通过公式(11)计算S;
    4:通过w^v = 1/(2\left | S−A^v\right |_F)更新w^v
    5:end while

    2.1.3. MLAN

    在基于图的多视图聚类中,噪声数据不可避免地出现在数据集中,这对相似图的构建产生了负面影响。获得可靠的图对于保障聚类效果非常重要,Nie等人[49]提出了多视图聚类和自适应邻居半监督分类(Multi-View clustering and Semi-Supervised Classification with Adaptive neighbors, MLAN),该方法可以通过学习局部流形结构获得用于实现最终聚类的最优图。此外,MLAN会自动为每个视图分配适当的权重,以集成所有视图。

    如何求解相似矩阵的最优解是本文研究的核心。假设一个数据集\{x_1, x_2,\dots, x_n\}\,所有数据点都采用[50]中提出的方法进行预处理。然后,考虑到局部结构的学习,Nie等人[49]构造了求解矩阵S的公式:

    这里第二项保证避免了只有最接近x_i的点的相似值被设置为1,其余的相似值被设置为0的情况。此外,为了更好地理解秩(L_S) = n−c的约束,我们还必须知道这个定理[51]:拉普拉斯矩阵LS(非负)的特征值0的重数c表示相似矩阵S的图中连接的分量数

    当自适应局部结构学习应用于多视图数据时,作者调整了等式(12)

    根据公式(13),需要特别强调的是,该算法从头到尾只更新相同的相似度矩阵S,这满足了不同视图之间的一致性。

    基于拉格朗日乘子算法的求解,公式(13)转化为下列形式:

    其中w^v = 1/2 \sqrt{ \sum_{ij}\left \|x_i^v - x_j^v \right \|^2_2 s_{ij}} a,假设它是一个固定值来求解S

    为了满足秩(L_S) = n − c的约束,作者采用了 Ky Fan 定理 [52] 到应用于公式(14)。

    这里F是一个n \times c的指标矩阵,它由矩阵L_S的第一个最小特征值对应的特征向量组成。最后一项保证L_S的第一个c最小特征值是最小的,从而趋于零。然后,他们采取了固定某些变量同时更新其他变量的策略。当S固定时,w^v的值很容易计算,F的最优解也可由下式求得:
    \min \limits_{F\in R^{n \times c},F^TF=I}Tr(F^TL_SF). (16)

    在求解w^vF时,将注意力转移到S的求解上。通过数学公式的推导,可以得到如下问题:

    这里我们要注意参数\alpha的含义,它表示某一点的邻居数,这个数是不断变化的,直到算法收敛。d_i是一个n \times 1的向量,它的第j个元素d_{ij}等于d^x_{ij} + \lambda d^f_{ij}。当然,计算规则d^x_{ij}d^f_{ij}在原论文中已经预先定义。Nie等人[49]证明了MLAN在算法执行中最终会收敛。MLAN的总体步骤如算法3所示。

    算法3
    算法3 MLAN
    输入:X=\{X^1,X^2,\dots,X^m\}\X^v\in R^{n\times d^v},簇类为k,参数为 \lambda
    输出:相似矩阵S \in R^{n \times n}
    1:初始化每个视图的权重 w^v= \frac{1}{m}, s_i可通过如下公式初始化:
    2: while 不收敛 do
    3:更新w^vw^v=1/2 \sqrt{ \sum_{ij}\left |x_i^v - x_j^v \right |^2_2 s_{ij}};
    4:通过公式(16)更新F;
    5:通过公式(17)更新s_i;
    6:end while

    2.2. 基于空间学习的模型

    原始数据在原始空间中可能没有明显的聚类特征,将其投射到另一个空间可能会有显著的效果。空间学习致力于在理想的空间中重构数据,实现更好的数据聚类。近年来,空间学习在多视图聚类中的应用不断涌现。

    2.2.1. ECMSC

    为了充分利用不同视图之间的信息互补性,保证最终指标矩阵的一致性,Wang等人[53]提出了排他一致性正则性多视图子空间聚类(ECMSC)方法。虽然有些作品[34,54,55]融合了所有的视图来学习最终的表示,但它们没有挖掘和利用视图之间的信息互补性。ECMSC通过增强不同视图间子空间表示的排他性来实现信息互补的实际效果。此外,为了克服如文献[31,32,55]中由于单独实现子空间学习和谱聚类而造成的聚类效果损失,作者将这两个过程合并为一个统一的框架,学习最终指标矩阵,保证了一致性原则。

    与下文描述的价值感知Hilbert-Schmidt独立准则(HSIC)不同,作者使用位置感知计算来度量不同子空间表示之间的排他性。如本文所述,该测量方法更容易控制元素值的大小,且与SSC[56]框架无缝兼容。具体而言,计算公式定义为

    其中U\in R^{n \times n}V\in R^{n \times n},为Hadamard积。那么,我们可以清楚地知道,如果U中的一个元素不等于0,那么V中对应的元素将趋近于0,这就使得信息互补。由于l_0-范数是非凸和离散的,因此将上式中的l_0-范数放宽为l_1-范数,便于计算。因此,在多视图情况下,使不同的子空间表示尽可能互斥的数学表达式如下:

    这里,错误项E^v的范数选择取决于先验知识,作者选择使用l_1-范数来处理稀疏损坏。出于同样的原因,第二项使Z^v变得稀疏。约束diag (Z^v) = 0保证每个数据点只能表示为除自身以外的其余点的组合。

    在子空间学习中,在获得所需的子空间表示Z后,在此基础上求解相似矩阵S,然后利用常规的谱聚类方法得到指标矩阵F。值得注意的是,为了简化和考虑整个理论框架,Wang et al.[53]放宽了限制

    F的损失函数有如下形式:

    其中θ_{ij} = 1/2 \left \| f_i−f_j \right \|^2_2, f_if_jF中的两个行向量,θ_{ij}是矩阵 \Theta中的一个元素。在他们的论文中,光谱聚类的最终目标函数总结为:

    通过[57]的工作证明了子空间学习和谱聚类的融合可以提高单视图案例的聚类精度。基于这一启发,作者将该理论扩展到多视图案例,即在每个视图中添加相应的等式(20)。这样就可以满足最终指标矩阵F在所有视图之间的一致性。公式为:

    到目前为止,本文提出的ECMSC模型已经准备就绪。联合公式(18)和(21),ECMSC的数学表达式如下:

    其中,λ1、λ2、λ3为对应项的平衡因子。

    为了求解上述目标函数,作者将问题分解为两个子问题。首先,在初始化F的基础上,乘数交替方向(ADMM)算法[58]来寻找Z^vE^v的最优解(计算过程详见原稿),然后固定Z^vE^v来计算F的值。算法的细节如算法4所示。

    算法4
    算法4 ECMSC
    输入:X=\{X^1,X^2,\dots,X^m\}\X^v\in R^{d^v\times n},簇类为k
    输出:指标矩阵F
    1:初始化 \Theta= 0,\lambda_1, \lambda_2, \lambda_3,t=0;
    2: while 不收敛 do
    3: for 每个视图 v \in m do
    4:给定 F,通过ADMM算法得到 Z^vE^v
    5:end for
    6:修正所有 (Z^v, E^v),求解min_F tr(F^TMF)s.t. F^T F = I得到F,其中M = \sum_v (D^v−S^v);
    7:检查循环结束的条件:\left || \Theta_{t+1}-\Theta_{t}- \right ||_\infty < 1; 如果不满足,令t=t+1
    8:end while

    2.2.2. LMSC

    考虑到多视图数据之间信息互补性的本质,以及近年来自我表征(self-representation )在子空间聚类中应用的显著效果,Zhang等人[59]提出了一种新的多视图子空间聚类方法:潜在多视图子空间聚类(Latent Multi-view Subspace Clustering, LMSC),它充分利用这两个条件,对数据进行重构,得到数据的潜在表示,然后在此表示的基础上挖掘数据的子空间表示。此外,作者将这两个过程结合成一个统一的算法框架,然后利用交替方向最小化增广拉格朗日乘子(ALMADM)[58]方法对问题进行优化。同时,作者也考虑了噪声数据对算法的影响,并提出了具体的解决方案。

    与文献[60]中所述相同,作者在本文中还假设,根据不同的映射关系,多视图数据可以理解为来自同一潜在表示的映射。基于此假设,LMSC与其他多视图子空间算法[31-33]的最大区别在于,子空间表示是在融合所有视图后重构的,而不是基于单一视图重构的。该操作的目的是整合所有视图中包含的零碎信息,以更完整、更本质地表示数据。

    为了描述原始数据和想要找到的潜在表示之间的关系,需要引入一组变量\{P_1,\dots,P_m\}\,其中P^v\in R^{d^v \times r}是每个视图对应的映射矩阵。那么P^v与潜在表示H \in R^{r \times n}的乘积大致可视为相关视图的数据矩阵,这里需要提前设置r的值,HP^vX^v的关系如图1所示。数学公式如下:

    图1:Zhang[59]等人提出的多视图潜在表示的演示

    其中XP分别为垂直拼接的矩阵\{X_1,\dots,X_m\}\\{P_1,\dots,P_m\}\L_h(\cdot,\cdot)表示潜在表示的损失函数。可以看出,与大多数多视图融合方法相比,该方法是独一无二的。

    因此,Zhang等人[59]使用等式(23)中的H作为数据特征的真实表示,并将其应用于子空间聚类,换句话说,就是探索H中合适的子空间表示Z。他们考虑了以下等式中的问题:

    L_r(\cdot,\cdot)表示Z的解的目标函数,\Omega(\cdot)用于正则化Z,标量\alpha>0用于平衡正则化。当然,我们应该注意,公式(24)的形式借鉴了著作[46,61,62]中提到的内容。

    如前所述,为了实现子空间聚类和潜表示学习的融合,作者在引入了附加参数λ1和λ2的基础上,增加了公式(23)和公式(24),以平衡这三项。同时,他们利用l2,1规范考虑了噪声数据的影响,最终目标写成:

    这里\left \| \cdot \right \|_{2,1}不仅增强了算法对噪声的鲁棒性,而且提高了矩阵的稀疏性。\left \| \cdot \right \|∗ 指示矩阵核范数,并使矩阵Z低秩,以避免平凡解。P的约束条件是避免在计算过程中H趋于零的情况。现在重新检查等式(25),我们可以清楚地理解公式的第一项是组合多个视图来学习潜在表示H,第二项是基于H来学习子空间表示Z,最后一个保证了Z的解是正常。

    此外,为了使E_hE_r的列具有相同的大小值,作者简单地将矩阵E_hE_r垂直拼接在一起。但该方法仍然是有效的,这已被广泛证明。将式(25)转换为:

    对于等式(26)的优化,作者使用ALM-ADM算法进行求解,算法5展示了LMSC的整个过程,其中JY_1Y_2Y_3为中间变量,μρε是整体超参数。

    算法5

    2.2.3. MSC_IAS

    数据的高维性给聚类算法带来了挑战,因为它包含了大量冗余和无用的特征,使得基于图的聚类算法的相似度矩阵的构造不可靠。如果数据有多个视图,无疑会增加一个更复杂的因素。Wang等[63]提出了一种新的多视图数据子空间聚类模型,称为完整感知相似度的多视图子空间聚类(multi-view subspace clustering with integrity - aware Similarity, MSC_IAS)。MSC_IAS能够通过完整空间学习生成相似度矩阵[64],对于聚类更可靠。一旦获得完整性感知的相似矩阵,就对其采用归一化切割算法(Ncut)[65]实现最终的聚类。具体来说,作者提出的完整空间是指数据表示在保留完整数据信息的同时有效降低数据维数的空间。正是由于这个特性,使得它可以包含对构建相似矩阵至关重要的属性。

    在完整空间学习[64]中,假设潜在的完整表示由每个视图中包含的部分信息组成。从这个角度来看,所有的视图必须被合并,以捕捉完整的空间。设 L \in R^{d \times n} 表示完整空间,由列向量 L_1,L_2,\ dots, L_n 构成,W^v \in R^{d^v \times d}表示第v视图的线性样本矩阵。特别地,W^vL表示完整空间的映射。因此,恢复完好空间的数学表达式为:

    其中W^v_i为矩阵W^v的第i列向量,对W^v_i的约束以及对第二项的约束都是为了正则化相应项。此外,该公式似乎与非负矩阵分解[66,67]和多视图字典[68]非常相似,但需要注意的是,该模型对学习的矩阵L没有额外的非负约束,其目的是使L具有更大的值空间。

    一旦得到完整空间的解,基于完整空间的相似性矩阵的构造就成为问题的重点。为了最大化相似矩阵对完整空间的依赖性,Wang等人[63]采用HSIC[69,70]来测量LS之间的相关性。潜在完整空间X采用内核K_1=L^TL,线性核K_2=S− D用于相似空间S。然后,通过测量LS之间的HSIC差,可以得到相似矩阵S的极限公式:

    其中,H=I-n^{-1}11^T是中心矩阵,用于对完整的空间进行中心化。而S^T_i1= 1这一约束的意义在于,构造位于仿射子空间中的相似点,并通过仿射子空间集中。

    如果假设完整空间L是集中的,可以得到L等于LH的结论。然后根据这一判断,Wang等人[63]将等式(28)中的最后一步修改为以下形式:

    这里第二项也是为了避免获得平凡解,λ_2γ只是两个非负参数。有必要详细说明用这种方法求解的相似矩阵S与用高斯核函数S_{ij}=\exp (\frac{-\left \| x_i-x_j \right \|^2_2}{2\sigma ^2})求解的相似矩阵S相比的优点。首先,它保证了数据点之间的相似性可以自适应学习和调整,然后l_1-范数比l_2-范数对异常样本点的鲁棒性更强。

    为了避免分步实现完整空间恢复和构造相似矩阵时导致的误差,Wang等[63]将公式(27)与公式(29)结合,以实现完整空间和相似矩阵的同时学习。

    这里,公式(27)中的λ_1\left \|L\right \|^2_F被丢弃,因为公式(29)中的L已被正则化了。因此,MSC_IAS模型的完全目标函数为:

    图2给出了MSC_IAS的总体框架,算法6给出了MSC_IAS的主要步骤,其中A_S, Q, MZ是算法优化过程中引入的中间变量。

    图2 算法6

    2.2.4. COMIC

    在当前的多视图聚类中,或多或少都需要进行参数设置,特别是聚类个数的选择,在现有的算法中,几乎都需要在初始化变量时指定聚类个数。为了克服参数选择带来的麻烦,Peng等[71]提出了交叉视图匹配聚类/CrOss-view Matching Clustering (COMIC)算法。该算法将数据投影到一个同时考虑几何一致性(GC)和聚类分配一致性(CAC)的空间中。更具体地说,几何一致性(GC)的目的是学习投影空间中的连接图,其中只有属于同一类的样本点被连接。而聚类分配一致性(CAC)的目的是使不同视图生成的连接图尽可能相似,从而保证不同视图的分布结构尽可能相同。同时,该模型可以自动学习几乎所有需要的参数,包括簇数。

    该算法将数据投影到同时考虑几何一致性(GC)和簇分配一致性(CAC)的空间中。更具体地说,GC的目的是学习投影空间中的连接图,其中只连接属于同一类的样本点。CAC的目的是使不同视图生成的连接图尽可能相似,从而确保不同视图的分布结构尽可能相同。同时,在提出的模型中,它自动学习几乎所有需要的参数,包括簇的数目。

    图3

    具体来说,几何一致性(GC)更注重学习一个有利的连接图S^v,并协同每个视图的局部几何一致性W^v,同时学习重建的数据表示Z^v,其维度与原始数据点X^v相同。图3为几何一致性(GC)的含义,其思想与文献[72]相似。需要特别说明的是,这里的Z^v并没有像现有方法那样紧凑地表示每个数据点,而是根据S^v对数据进行重构,使同一簇的数据更接近。与几何一致性(GC)不同,引入簇分配一致性(CAC)是为了最小化不同连接图之间的差异。这确实与传统方法不同,传统方法选择增强不同视图连接图{S^v}^m_{v=1}的一致性,而不是学习表示{Z^v}^m_{v=1}。COMIC采用这种方法的意义在于,如果强制使{Z^v}^m_{v=1}的相似度最大化,无疑会导致数据原始信息的丢失。相反,最大化前者的相似性可以保存不同视图中数据点的相对位置。

    综上所述,COMIC的目标函数为:

    其中第一项基于GC,第二项派生自CAC。这两项的具体公式如下:

    这里的z^v_i是原始数据x^v_i经过数据重构后的新表示,它同时满足GC和CAC原则。重构损失借鉴了凸聚类的思想[73,74],即重新学习原始数据X^v在邻域空间中的表示Z^v。对于W^v的计算,采用互k近邻连通性(m-kNN)进行计算。值得注意的是,该项(S^v_{ij}−1)具有以下功能。首先,如上所述,如果在两个点之间建立了连接,那么该项将趋向于0 (S^v_{ij}→1),否则趋向于1 (S^v_{ij}→0)。其次,每个视图连接图的权重将控制在[0,1]范围内。最后,它能够避免S^v = 0Z^v = X^v的出现。

    在对公式(31)进行优化后,可以得到Z^v的最终值。但此时不能直接通过Z^vv获取每个数据点的标签,而是使用Z^v来构造最终的聚类图。首先,根据不等式\left \| z^v_i−z^v_j \right \|_2≤\epsilon ^v建立m个特定视图连接图,其中当z_iz_j的关系满足这个不等式时,它们是连通的。这里v表示阈值,其值设为W^v中最短90%边的平均长度。那么,在这些m图中,如果两点的连接数超过一半,则认为它们属于同一簇。注意COMIC的目标函数,其中包含λ^vμ^v两个参数。在算法运行之前,并没有预先指定它们的值,而是根据所建立的公式不断学习和更新,这也确定了论文的标题。此外,避免选择簇的数量也得益于L_2,L_2保证了被连接的点被视为属于同一个簇。最后,COMIC的算法步骤如算法7所示。

    在对公式(31)进行优化后,可以得到Zv的最终值,但此时不能通过Zv直接获取每个数据点的标签,而是使用Zv来构造最终的聚类图。首先,根据不等式zvi建立了m视图特定的连接图− zvj2≤v、 其中zi和zj是连通的,如果它们的关系满足这个不等式。此处v表示阈值,其值设置为Wv中最短90%边的平均长度。然后,在这些m图中,如果两点的连接数超过一半,则认为它们属于同一簇。注意COMIC的目标函数,它包含两个参数λv和μv。在算法运行之前,它们的值不是预先指定的,而是根据已建立的公式不断学习和更新的,这也确认了论文的标题。此外,避免选择集群的数量有利于L2,L2保证连接点被视为属于同一集群。最后,算法7给出了漫画的算法步骤。

    算法7

    2.3. 基于二进制代码学习的模型

    近年来,二进制编码学习的研究取得了很大进展,它将数据特征编码成二进制形式,对减少数据存储和计算时间具有重要意义。将二进制编码学习应用于多视图聚类是一种提高算法速度、节省存储空间的可行方案。

    在现有的多视图聚类算法中,执行多视图聚类算法需要大量的存储空间和长时间的操作才能获得最终结果,并且随着数据集的不断增大,这些算法的性能会急剧下降。针对上述缺点,Zhang等[75]首先将二进制代码学习引入到大规模多视图聚类中,提出了一种新的二进制多视图聚类方法(binary multi-view clustering, BMVC),该方法包含了两个关键组成部分:协作离散表示学习(collaborative discrete representation learning, CDRL)和二进制聚类结构学习(binary clustering structure learning, BCSL)。更具体地说,他们结合CDRL损失和BCSL损失来构建最终目标。然后,通过迭代得到目标函数中的最优指标矩阵。

    什么是二进制编码学习[76]?其核心思想是将原始特征数据编码为一系列二进制编码,并在具有保留相似度(尽可能的保留原来高维向量的相似度)和低维的Hamming space中实现。BMVC采用二进制形式学习数据特征的方法,大大减少了计算时间和内存占用。产生这种效果的原因是计算机在二进制计算和存储方面效率更高。而且,与[20,77]相比,BMVC的区别在于它不将二进制编码的生成与聚类过程分开,适用于大规模数据集。

    根据问题的表达式,用非线性RBF映射对数据进行编码:

    其中φ(x^v_s)表示从第v个视图中选取的某样本计算出的非线性嵌入,σ表示核宽,\{a^v_i\} ^j_{i=1}表示从第v个视图中随机选取的j个锚样本。

    然后,Zhang等[75]根据CDRL计算x^v_s的二进制哈希值,这是关键步骤。函数定义如下:

    其中sgn(\cdot)为元素符号算子,U^v∈R^{l×m}表示第v个视图的映射矩阵。

    考虑到多视图数据表示的互补性,CDRL的损失函数如下所示:

    其中,w^v表示第v视图对应的权重,r控制权重的影响程度,b_s为第s个样本的协同二进制代码,γ只是一个非负常数。

    除了考虑协同多视图表示学习,Zhang等[75]还试图对不同视图保持一致的聚类结构。因此,他们基于BCSL进行了方程的推导

    其中C为聚类质心矩阵,g_s为指标向量。

    本文的重点是将CDRL和BCSL结合起来。为此,将BMVC的实现转化为以下数学公式:

    其中BG分别由\{b_1,…,b_n\}\\{g_1,…,g_n\}\组成;λ表示正则化参数。

    由于最小化公式(38)是一个NP难问题,Zhang等人[75]将其分解为几个子问题逐一求解。也就是说,他们更新了所有参数中的一个,并固定了其他参数。

    需要注意的是,对聚类结果影响最大的因素是矩阵G。因此,根据公式(38),在求出G的最优值之前,需要经过一个迭代过程来更新U, B, C的解。特别是,在C的优化中提出了自适应离散近端线性化最小(ADPLM)方法,更新UBC值后,可得到矩阵G中各元素g_{ij}的最优值:

    其中H(b_i, c_j)用于计算第i个二进制b_i与第j个簇心c_j之间的距离。

    Zhang等[75]也证明了优化过程的收敛性。因此,可以通过迭代过程快速得到G的最优解。

    3. 实验

    在本节中,我们进行了一些实验,采用三种主流的评价指标来观察上述算法的性能,然后根据真实的实验数据进行分析。

    3.1 数据集

    表1:数据集的描述。

    ALOI: ALOI数据集包含1000个对象的110,250张图像,每个对象约有100张图像。从中提取10个目标的1079幅图像,包括RGB颜色直方图、HSV颜色直方图、颜色相似度、Haralick特征等4种视图。

    MNIST: MNIST数据集是一个众所周知的手写数字集合,从0到9,我们从其中选择了总共2000张图像。每幅图像有等投影、线性判别分析(LDA)和邻域保持嵌入(NPE) 3个视图。

    NUS-WIDE: NUS-WIDE数据集由81个对象的269,648张图像组成。在我们的实验中,总共从8个类别中选择了1600个样本,每个图像被表示为6个不同的特征:CH, CM55, CORR, EDH, WT, BoW。

    MSRC-v1: MSRC-v1数据集包含8种对象的240张图像。我们从210幅图像中选取7个类别组成实验数据集。每个图像有五个特征表示。

    Extended Yale-B:ExtendedYale-B数据集包含2414张38张脸的图像。这里选取了10个人的650张面部图像,整个数据集由三个视图组成。

    Caltech101: Caltech101由9144张102种物体的图像组成,其中有Gabor、WM、CENTRIST、HOG、GIST、LBP等6个视图。

    3-Sources Text: 3-Sources Text数据集由三种语言的169条新闻组成,拥有娱乐、政治、商业、体育、健康和科技六大主题。表1描述了这七个数据集的基本信息

    3.2.评估指标

    在本文中,为了展示每个算法的真实性能,我们使用三个常用的评价指标来评价这些多视图聚类方法,分别是聚类精度(ACC)、标准化互信息(NMI)和纯度(purity)。

    3.3 参数设置

    在接下来的算法性能介绍之前,有必要声明这些算法的参数选择。特别是BMVC的操作需要锚点样本,他们的论文中并没有明确说明具体的数量。在实验中,我们统一选取初始数据集中所有数据点的12%作为锚点样本。其余算法中的各个参数都是根据原始论文的最佳性能来设置的。

    3.4 实验结果

    4. 当前的挑战和未来的方向

    通过对所有算法的介绍和实验部分的分析,可以看出多视图聚类领域还存在一些未解决的问题,这不仅对研究者来说是挑战,也为进一步的研究提供了一些可用的切入点。总的来说,我们有以下几点:

    • 多视图数据的优点是可以从不同的角度描述对象,使这种表示更加全面,克服了数据单一性和简单化的缺点。但对视图间信息互补性的挖掘和有效利用仍需进一步完善。目前比较流行的多视图融合方法是根据视图的重要性分配相应的权值,然后添加,这在数学理论上是可解释的,容易理解的,但可能与实际情况不一致。在ECMSC模型中,基于位置感知的视图融合方法似乎开辟了另一个值得研究者关注的思路。

    • 由于数据处理计算是在多个视图上逐个执行,大多数方法的运行时间无疑大大增加。小数据集的运行时间是可以接受的,但当数据集越来越大时,时间消耗是无法忍受的,算法的效果也会急剧下降。在BMVC中引入二进制编码,极大地提高了操作效率,也提升了性能,这是一种新颖的方法,值得研究人员的关注和进一步发展。

    • 当数据处于高维状态时,算法的性能也会受到影响。这是因为高维数据往往存在大量的冗余信息,不仅无法补充有效信息,而且不利于良好的数据特征表示。因此,有效的数据降维[78]和重要数据特征的保留对于解决此类数据的聚类问题尤为重要。

    • 在目前的多视图聚类中,大多数算法往往只从矩阵层面考虑视图之间的相关性,从而发现不同视图之间的信息一致性和信息互补性。基于张量的形式来探索透视间的高阶相关性更加合理和有效。本文[79]在将张量应用于多视图聚类方面进行了新的尝试,取得了良好的效果,这可能是一个值得进一步研究的创新方向。

    • 多视图聚类模型必然涉及更多的参数和相应的参数限制。因此,在构建了算法模型之后,对于模型的优化算法的设计仍然是困难的,这需要研究者不断的尝试和探索,以达到预期的效果。将未知问题巧妙地转化为已知的可解问题是目前优化目标函数的一种可行方法。

    5.结论和未来工作

    本文介绍了近年来的八种多视图聚类算法,并在七个真实数据集上进行了测试。同时,在这些数据集上运行后,揭示了每种算法的三个指标(ACC、NMI、Purity)。同时,我们还关注了这些算法在所有数据集上的运行时间,这对解决实际问题具有重要的指导意义。总之,我们的工作有助于研究人员掌握这些算法的优缺点。在此基础上,对该领域感兴趣的研究者可以克服现有算法的缺陷。在接下来的工作中,我们也在准备探索一种新的多视图聚类算法,该算法可以适应不同大小的数据集,大大提高运行速度。

    相关文章

      网友评论

          本文标题:An overview of recent multi-view

          本文链接:https://www.haomeiwen.com/subject/lvbknltx.html