美文网首页paper reading
Unsupervised Deep Embedding for

Unsupervised Deep Embedding for

作者: 你笑起来就像好天气 | 来源:发表于2019-05-12 17:13 被阅读0次

    https://arxiv.org/pdf/1511.06335.pdf

    DEC

    考虑将n个点 {x_i\in X}_{i=1}^n聚类为k个集群的问题,每个集群被一个中心\mu_j,j=1,...k表示。我们提出一种方法,首先对数据进行非线性映射f_\theta:X-Z,其中\theta是可学习参数,Z是潜在特征空间。为了避免扭曲维度,Z的维度要比X小的多。为了参数化f_{\theta},深度神经网络是一个自然的选择。

    提出的DEC算法通过同时学习特征空间Z中k类集群中心{\mu_j \in Z}_{j=1}^k和DNN的参数\theta将点映射到Z来实现数据聚类。
    DEC有两个阶段
    -通过深度自动编码器来参数初始化
    -在计算目标分布和最小化KL散度迭代优化参数

    KL散度聚类

    给定一个对非线性映射f_\theta和初始化聚类重心{\mu_j}_{j=1}^k的初始估计,我们在两步骤之间使用无监督算法提高聚类。第一步,我们在嵌入点和聚类重心见计算一个soft assignment。第二步,我们更新深度映射f_\theta,通过使用一个auxiliary目标分布从现有的高置信度assignment中学习来改进聚类重心。

    soft assignment

    我们使用Student's t-分布作为核心来测量嵌入点z_i和重心\mu_j之间的相似度。

    1.png
    其中对应嵌入后的,是Student's t-分布的自由度,可以看作样本i可以作为聚类j的概率,我们不能在验证集上交叉验证,学习是没有必要的,我们在所有实验中都设为1。

    最小化KL散度

    我们提出在auxiliary的目标分布的帮助下通过从高置信度学习改进聚类。特别的我们的模型通过匹配soft assignment和目标分布来训练。我们定义我们的目标为为soft assignmentq_i和auxiliary 分布p_i间的KL散度损失:

    2.png
    目标分布的选择P对DEC的性能很中哟啊。设置每个为高置信度区域数据点的delta分布,忽略其他的。然而在和soft assignment之间,使用softer概率目标更加自然灵活。
    我们在这里希望我们的目标分布有以下属性:
    -strengthen predictions
    -强调高置信度的数据点
    -正则化每个重心的损失贡献阻止扭曲隐藏的特征空间产生大的聚类
    实验中 3.png

    优化

    使用有动量的随机梯度下降来联合优化{\mu_j}和DNN参数\theta
    L关于每个数据点的特征空间嵌入z_i和聚类重心\mu_j的梯度计算如下

    4.png

    参数初始化

    讨论参数和重心的初始化
    我们用stacked autoencoder(SAE)来对DEC初始化,SAE学到的无监督表示可以促进DEC的聚类表示的学习。

    对于初始化聚类中心,我们通过将数据通过DNN得到嵌入数据点,然后通过标准的k-julei来在特征空间Z聚类。 5.png

    相关文章

      网友评论

        本文标题:Unsupervised Deep Embedding for

        本文链接:https://www.haomeiwen.com/subject/gxncaqtx.html