Li, Hongyu et al. “Dual Mutual Information Constraints for Discriminative Clustering.” AAAI Conference on Artificial Intelligence (2023).
摘要导读
深度聚类是机器学习和数据挖掘中的一项基本任务,旨在学习面向聚类的特征表示。在以往的研究中,大多数的深度聚类方法都遵循自监督表示学习的思想通过最大化相似实例对的一致性,而忽略特征冗余对聚类性能的影响。因此,作者设计了一种基于深度对比聚类结构的双互信息约束聚类方法DMICC,其中双互信息约束给出了坚实的理论保证和实验验证。具体来说,在特征层面上,通过最小化所有维度上的互信息来减少特征之间的冗余,以鼓励神经网络提取更多可辨别的特征。在样本层面,最大化相似实例对的互信息,以获得更无偏和鲁棒的表示。双互信息约束同时作用,相互补充,共同优化适合聚类任务的更好的特征。
![](https://img.haomeiwen.com/i2013561/3badb125e1bcaa5c.png)
方法浅析
![](https://img.haomeiwen.com/i2013561/4e3fcb8833c1b8ff.png)
首先通过两个数据增强来构造数据对。然后,使用参数共享网络从不同的数据扩充中提取特征。并且对从两个分支中提取的特征进行IMI约束,然后采用非参数SoftMax,对每个分支进行FMI约束,用于学习可辨别的样本特征。
-
Feature Redundancy-Minimization Module
该模块的关注重点是特征冗余,在特征层面实现了互信息最小化约束。该模块的目标是通过这种方式有效地减少特征维度之间的冗余性,获得更多的鉴别特征,以提升深度聚类的效率。在信息论中,熵是不确定性的度量,这里将它记为。以下是涉及到的一些互信息计算的公式:(信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望)
变量的熵:
,
是
发生的概率。
条件熵:论文中用到的互信息公式:
假设由前面的特征抽取器提取的特征矩阵为和
,并使用
和
分别表示
和
的第
列。忽略下标,给定特征矩阵
,可以表示为
个列向量,即
。因此,要实现特征层面的互信息的最小化,其目标函数可以写作:
。
--
作者思路:因为要计算特征层面信息的最小化,根据互信息公式,我们需要知道特征维度的联合概率分布,以及边缘分布概率
和
。作者认为维度之间相关性的度(degree)和联合概率分布有很强的联系,即,当维度的相关性显著时,联合概率分布的值较高。因此,作者假设联合概率分布
可以在一定程度上被维度之间的相关值所代替。具体来说,可以首先构造协方差矩阵
并对其进行归一化,最后的结果作为联合概率分布
。
--
具体的操作为:对进行归一化,利用内积得到相关性矩阵
。
根据前面的假设,
联合分布可以由以下形式计算:
。其中,
表示
和
的相关性得分,
表示矩阵
的和。
边缘分布,
由此,该模块的FMI约束损失可以表示为如下的形式:
其中,
是一个平衡超参数,用来缩放边际概率分布。
--
方法有效性的证明这里不再赘述,可以移步原文 -
Instance Similarity-Maximization Module
Instance discrimination Backbone 实例识别的关键是:假设每个实例都代表一个不同的类。假设有个图像
及其对应的特征
。作者这里使用
作为权重向量的代替。
因此该模块的重点在于学习一个嵌入映射函数,其中
。这里
通过一层
正则化层强制
。
根据任务设定,每个样本instance都是一个类别,那么依据给定样本的表示
分到第
个类别的概率可以表示为如下的形式
,这里是图中的非参的softmax操作。
是一个温度超参。(虽然但是,这里的
和
对应的shape写的不是很清楚。按照向量乘法的规则来说,
和
应该都是列向量,即其shape应该为
。样本标记
对应的是第
个类别,因为这里将每个样本分为单独的一类,
是给定样本
对应的表示)
而对于Instance discrimination Backbone ,其优化目标为最大化联合概率分布即将每个样本无误地分配到自己特定的类别中。在神经网络中其负对数优化函数如下:
--
附图为带参数的softmax:以及pyTorch官方的softmax函数定义:
--
IMI Constraint 作者试图引入对比学习来最大限度地提高对由同一组图像生成的增强实例对的MI约束,从而产生更无偏和鲁棒的特征。
假设原始的图像输入为,经过数据增强得到的图像分别为
和
,其对应的矩阵为
和
。其中
,
。目标是最大化相应表示的MI:
![](https://img.haomeiwen.com/i2013561/2f9a62ddbae85024.png)
其联合分布可以表示为:
边缘分布
(这里可以想成是
考虑到矩阵的对称性,
其对应的损失函数形式为:
其中
- 总体损失
不失一般性,模型整体的目标函数为:其中三个损失分别为实例判别损失、实例相似度最大化损失和特征冗余最小化损失。
--
目标函数的有界性证明请移步原文,这里不进行赘述 - 聚类
从模型设计的角度看,应该是使用设计的网络和损失函数进行了表示的学习和
并直接使用
-means进行聚类。
从论文的整体来看,主要是将特征选择和表示学习利用互信息结合在一起。在笔者看来,无论是否引入实例识别部分(Instance discrimination Backbone )好像对两种互信息的约束都没有影响,因此,对于模型中为什么一定要存在这一部分交代的不是很明白。可能需要去再阅读下作者引用的idea的原文。。
![](https://img.haomeiwen.com/i2013561/a63d7996e3651107.png)
网友评论