美文网首页paper reading
Unsupervised Deep Embedding for

Unsupervised Deep Embedding for

作者: 你笑起来就像好天气 | 来源:发表于2019-05-12 17:13 被阅读0次

https://arxiv.org/pdf/1511.06335.pdf

DEC

考虑将n个点 {x_i\in X}_{i=1}^n聚类为k个集群的问题,每个集群被一个中心\mu_j,j=1,...k表示。我们提出一种方法,首先对数据进行非线性映射f_\theta:X-Z,其中\theta是可学习参数,Z是潜在特征空间。为了避免扭曲维度,Z的维度要比X小的多。为了参数化f_{\theta},深度神经网络是一个自然的选择。

提出的DEC算法通过同时学习特征空间Z中k类集群中心{\mu_j \in Z}_{j=1}^k和DNN的参数\theta将点映射到Z来实现数据聚类。
DEC有两个阶段
-通过深度自动编码器来参数初始化
-在计算目标分布和最小化KL散度迭代优化参数

KL散度聚类

给定一个对非线性映射f_\theta和初始化聚类重心{\mu_j}_{j=1}^k的初始估计,我们在两步骤之间使用无监督算法提高聚类。第一步,我们在嵌入点和聚类重心见计算一个soft assignment。第二步,我们更新深度映射f_\theta,通过使用一个auxiliary目标分布从现有的高置信度assignment中学习来改进聚类重心。

soft assignment

我们使用Student's t-分布作为核心来测量嵌入点z_i和重心\mu_j之间的相似度。

1.png
其中对应嵌入后的,是Student's t-分布的自由度,可以看作样本i可以作为聚类j的概率,我们不能在验证集上交叉验证,学习是没有必要的,我们在所有实验中都设为1。

最小化KL散度

我们提出在auxiliary的目标分布的帮助下通过从高置信度学习改进聚类。特别的我们的模型通过匹配soft assignment和目标分布来训练。我们定义我们的目标为为soft assignmentq_i和auxiliary 分布p_i间的KL散度损失:

2.png
目标分布的选择P对DEC的性能很中哟啊。设置每个为高置信度区域数据点的delta分布,忽略其他的。然而在和soft assignment之间,使用softer概率目标更加自然灵活。
我们在这里希望我们的目标分布有以下属性:
-strengthen predictions
-强调高置信度的数据点
-正则化每个重心的损失贡献阻止扭曲隐藏的特征空间产生大的聚类
实验中 3.png

优化

使用有动量的随机梯度下降来联合优化{\mu_j}和DNN参数\theta
L关于每个数据点的特征空间嵌入z_i和聚类重心\mu_j的梯度计算如下

4.png

参数初始化

讨论参数和重心的初始化
我们用stacked autoencoder(SAE)来对DEC初始化,SAE学到的无监督表示可以促进DEC的聚类表示的学习。

对于初始化聚类中心,我们通过将数据通过DNN得到嵌入数据点,然后通过标准的k-julei来在特征空间Z聚类。 5.png

相关文章

网友评论

    本文标题:Unsupervised Deep Embedding for

    本文链接:https://www.haomeiwen.com/subject/gxncaqtx.html