Sun B, Zhou P, Du L, et al. Active deep image clustering[J]. Knowledge-Based Systems, 2022, 252: 109346.
摘要导读
近年来,深度聚类引起了越来越多的关注。然而,由于缺乏标签,深度聚类有时仍然提供不可靠的聚类结果。虽然半监督深度聚类可以通过涉及很少的标注标签而在一定程度上缓解这一问题,作者观察到半监督聚类的性能在很大程度上依赖于人为标注数据的选择。 不幸的是,由于对传统的半监督方法的关注较少,监督信息的选择仍然是一个棘手的问题。为了解决这一问题,本文提出了一种新的深度主动聚类方法,该方法可以主动选择关键数据进行人工标记,并应用人工注释来提高深度聚类性能。与传统的使用固定的预先给定的监督信息的半监督深度聚类方法不同,我们设计了一种简单而有效的策略用于选择informative和uncertain的数据用于人工标注,这有利于完成聚类任务。此外,本文将深度表示学习、聚类和数据选择策略集成到一个统一的框架中,使得每个任务都可以相互提升。通过与现有深度聚类模型和半监督聚类模型相比,展现出提出模型的有效性。
模型浅析
模型的设计主要针对两个问题 (1) How to select key data for annotation? (2) How to use the human annotation to do clustering?为了使用人为标记进行聚类,本文根据标记数据构建了Must-link和Cannot-link并通过由对比损失驱动的孪生网络进行表示学习,将学到的表示通过KL深度聚类层获得聚类结果;在选择需要标注的数据时,依赖于聚类结果设计了挑选策略寻找到informative和uncertain的样本点进行标注。
根据框架的设计,这里分为三个模块给出介绍:
-
表示学习模块
根据损失函数最小化原则,引入了一个预定义的间隔 > 0,并希望在Cannot-link的两个数据的距离应该大于 ,否则将对其施加惩罚。然后,通过表示一个指示器,如果则有=1,若则有=0,由此上述的目标可以组合成一个统一的目标函数: 其中, 表示当在Cannot-link中的两个数据点的间隔超过时,将不进行惩罚,否则,进行惩罚。
受度量学习的启发,需要将原始数据映射到一个新的语义潜在空间中,在这个潜在空间中,使得同一集群中的数据是接近的,而不同类簇中的数据彼此相距很远。这里使用到的映射函数为, 并根据预先给定的认为标注数据构建了Must-link和Cannot-link。因此,驱动网络参数更新的目标函数主要包含两个方面,分别是Must-link约束和Cannot-link约束:
与传统对比学习的输入不同,本文采用的是对进行三元组构造,从而将和分别输入孪生网络中得到对应的latent表示和进行损失的计算,并进行参数的更新。 -
聚类模块
这里使用的是DEC中的经典聚类层构造,这里不进行赘述。并通过argmax_j获取样本所属的类簇。 -
约束的主动选择
由聚类层的定义可知,代表的是第个样本和类簇之间的相似性。也就是说在整个的集合中,是位于类簇边缘的样本,是靠近类簇中心的样本。由此,可以选择其构成不确定的样本对,并以此选取个样本构成该类簇的待标记集合。这样就满足了选择原则中的第(1)项。这里值的注意的一点是,下次在选择的时候需要跳过已经选择过的样本。
在约束对的选择上,本文主要从两个原则出发:(1)不确定性:选择那些模型难以抉择归属的样本,那些模型可以轻易聚类的样本将不在考虑范围;(2)很轻易可以证明在给定的数据中,Cannot-link的数量远大于Must-link,而根据聚类的目标,Must-link所包含的信息远大于Cannot-link,也对聚类更有帮助。
给定一个batch中所要选择的约束数量,假设有个类簇,每个类簇所包含的样本数为,因此有,对应于每个类簇的约束数量为。对于而言,因为来自于同一个类簇,因此这里就存在潜在的Must-link,这种操作满足了约束对选择的第(2)个原则。
以类簇为例,选择的目标是那些不确定的样本对。假设在类簇中包含个样本,以对应值的降序排列得到:
为了实现这一点,本文将原始的数据集分为了个不相交的子集, 来避免选择到重复的约束对。第的迭代对应的算法如下: 在得到后,将中的样本对进行人工注释,构造Must-link和Cannot-link。然后再重复表示学习模块的学习。
直观。
网友评论