DEC

考虑将n个点 ${x_i\in X}_{i=1}^n$ 聚类为k个集群的问题,每个集群被一个中心 $\mu_j,j=1,...k$ 表示。我们提出一种方法，首先对数据进行非线性映射 $f_\theta:X-Z$ ，其中 $\theta$ 是可学习参数，Z是潜在特征空间。为了避免扭曲维度，Z的维度要比X小的多。为了参数化 $f_{\theta}$ ，深度神经网络是一个自然的选择。

提出的DEC算法通过同时学习特征空间Z中k类集群中心 ${\mu_j \in Z}_{j=1}^k$ 和DNN的参数 $\theta$ 将点映射到Z来实现数据聚类。
DEC有两个阶段
-通过深度自动编码器来参数初始化
-在计算目标分布和最小化KL散度迭代优化参数

KL散度聚类

给定一个对非线性映射 $f_\theta$ 和初始化聚类重心 ${\mu_j}_{j=1}^k$ 的初始估计，我们在两步骤之间使用无监督算法提高聚类。第一步，我们在嵌入点和聚类重心见计算一个soft assignment。第二步，我们更新深度映射 $f_\theta$ ，通过使用一个auxiliary目标分布从现有的高置信度assignment中学习来改进聚类重心。

soft assignment

我们使用Student's t-分布作为核心来测量嵌入点 $z_i$ 和重心 $\mu_j$ 之间的相似度。

1.png
其中对应嵌入后的，是Student's t-分布的自由度，可以看作样本i可以作为聚类j的概率，我们不能在验证集上交叉验证，学习是没有必要的，我们在所有实验中都设为1。

最小化KL散度

我们提出在auxiliary的目标分布的帮助下通过从高置信度学习改进聚类。特别的我们的模型通过匹配soft assignment和目标分布来训练。我们定义我们的目标为为soft assignment $q_i$ 和auxiliary 分布 $p_i$ 间的KL散度损失:

2.png
目标分布的选择P对DEC的性能很中哟啊。设置每个为高置信度区域数据点的delta分布，忽略其他的。然而在和soft assignment之间，使用softer概率目标更加自然灵活。
我们在这里希望我们的目标分布有以下属性：
-strengthen predictions
-强调高置信度的数据点
-正则化每个重心的损失贡献阻止扭曲隐藏的特征空间产生大的聚类
实验中