美文网首页
论文阅读“Dissimilarity Mixture Autoe

论文阅读“Dissimilarity Mixture Autoe

作者: 掉了西红柿皮_Kee | 来源:发表于2021-08-02 16:44 被阅读0次

Lara J S, González F A. Dissimilarity Mixture Autoencoder for Deep Clustering[J]. arXiv preprint arXiv:2006.08177, 2020.

摘要翻译

差异混合自编码(DMAE)是一种基于特征聚类的神经网络模型,它融合了灵活的dissimilarity function,可以集成到任何一种深度学习体系结构中。它在内部表示了一个差异混合模型(DMM),通过将概率重新解释为神经网络表示,将K-Means、GMM或Bregman聚类等经典方法扩展到任何凸和可微的dissimilarity function。DMAE可以与深度学习架构集成到端到端模型中,允许同时学习聚类分配和神经网络参数。通过对图像和文本聚类基准数据集进行实验,结果表明DMAE在无监督分类准确率和标准化互信息对比中具有较强的竞争力。

Intro介绍

Unsupervised learning (UL) aims to automatically extract meaningful patterns from unlabeled data, it covers different tasks like clustering, density estimation, dimensionality reduction, anomaly detection, data generation, among others.

Remarkable examples for UL:(1) autoencoders (AE); (2)generative models (GAN and VAE); (3) deep clustering methods (similarity-based or feature-based)
作者提出的DMAE,是一种 feature-based聚类的深度神经网络模型,同时它包含dissimilarity function,保留了similarity-based聚类的灵活性。DMAE在内部以编码器-解码器体系结构表示了指数分布的混合,允许使用基于梯度的优化进行参数估计。DMAE将经典的概率概念重新解释为神经网络组件,允许集成到深度学习架构中。主要贡献点:

  • DMAE:一种基于样本和混合成分之间的可微凸差异函数的深度聚类模型,可应用于深度嵌入空间。
  • 该模型是一个使用概率神经网络表示的编码器-解码器网络,可以与其他深度学习组件一起使用。允许通过基于梯度的优化、在线学习和迁移学习等现代策略进行可扩展的参数估计。
  • 由于DMAE的公式是基于差异的函数,所以它可以拟合来自不同概率分布的数据,如圆形、角形、概率空间等,同时保持参数的可解释性。同样地,如果问题需要更高的复杂性,所提出的模型可以用深度学习组件进行扩展,在可解释性和性能之间进行权衡。
相关工作

聚类模型的性能高度依赖于输入数据的拓扑结构和属性,例如,聚类可能形成不同的几何形状(如圆形、椭圆形、角状等),也可能由不同类型的变量(如连续的、离散的等)组成。不同的集群策略更适合于不同的问题。
作者在Intro中也提到了similarity-based and feature-based两类聚类方法,因此在这一部分进行详述。

模型浅析(Dissimilarity Mixture Autoencoder)

DMAE由三个主要成分组成。首先,�提出了一个差异混合模型(DMM),将Bregman聚类等经典方法扩展到任何凸和可微的差异函数; 其次,提出了一种期望最大化的自编码器作为DMM的学习过程;第三,利用无监督表示学习对模型进行了深度聚类扩展。

Dissimilarity Mixture Model

Mixture Model是一种聚类的概率方法,它允许通过一组K个分布的组合来表示样本的密度。在本工作中,属于类簇k的数据点x_i∈R^m的似然P(x_i|z_{ik}=1)被建模为如下的指数分布:


其中z_{ik}是一个binary类型的潜在变量,指示样本x_i是否属于类簇kb_k是一个唯一确定的值,将概率标准化为一个有效的概率密度;α是一个控制可能性指数行为的常数;d(·)是一个差异度量函数,用于度量x_i和与当前类簇k相关的参数θ_k之间的亲和力。当d(·)是Bregman divergence(出自论文Clustering with bregman divergences)时,指数族与所提出的似然值之间存在直接联系。然而,所提出的似然分布考虑了一个更一般的可微差异函数,该函数必须是θ_k的凸函数。给出一些可参考的差异函数: 根据典型的混合模型(MM)公式,需要确定一个后验类簇分配分布P(z_{ik}=1|x_i)的表达式,为此,我们引入了一个边缘先验分布P(z_{ik}=1)=π_k,并且有π_k ∈ [0, 1]\sum_{i=1}^K\pi_k=1。这个边缘分布代表了z_{ik}的离散性质,并引入了额外的模型参数--混合系数π_k。后验分布可以通过贝叶斯规则来确定:
for b_k,我们提出重新参数化的ϕ_k=log(π_kb_k),将该因子作为模型的参数,允许对非归一化概率分布进行优化。由此转化为:

其中, σ(·)为神经网络中常用的softmax,α值可以重新解释为softmax的逆温度,这是一个超参数,用于控制softmax函数的稀疏性,较高的α值近似于one-hot的softmax输出。同样(值得注意的是),当差异函数是负点积d(x_i, θ_k)=x_i·θ_kα=1时,该表达式与前馈神经网络之间存在直接的联系,即关于所有组件z_i=[z_{i1}, z_{i2}, …, z_{iK}]P(z_i|x_i)将相当于一个由softmax激活的单层网络σ(W·x_i+b),其中W∈R^{K×m}是一个包含聚类参数θ_k的矩阵,b∈R^K是一个具有重新参数化混合系数ϕ_k的向量。
在参数Θ =\left\{θ_1, θ_2, . . . , θ_K\right\}Φ = \left\{ϕ_1, ϕ_2, . . . , ϕ_K\right\}的学习中,DMAE的学习过程定义为E步的重新解释,M步定义为自动编码器的编码、解码和优化阶段。
Autoencoder for Expectation-Maximization

EM是一种迭代更新模型参数直到收敛的算法,它需要在任何t次迭代中确定E步和M步的一般表达式。
E-step:计算q^(t)


对于具有离散的潜在变量数的模型,所求分布等于后验分布,即可以由公式(2)计算得到。其中X∈R^{N×m}是一个矩阵,其中每一行大小为m的特征向量x_i共计N个样本,Z∈R^{N×K}是一个矩阵,其中每一行代表一个样本x_i对应的潜在分量z_i

M-step:通过最大化分布q^(t)下的完全对数似然值的期望值来更新参数

对于包含N个样本和K个分量的DMM,其完全似然P(X, Z; Θ, Φ)采用如下计算:
其完全对数似然(the complete log-likelihood)为:

考虑到z_{ik}分量是binary随机变量以及关于q(t)的定义(见公式(4)),条件期望E_{q^{(t)}}[z_{ik}]等于后验分布P(z_{ik}=1|x_i)。所以有:完全对数似然值的期望 L=E_{q^{(t)}}[log(P(X, Z; Θ,Φ))]计算如下:

由于不相似函数d必须是凸的,利用琴森不等式:

琴生不等式(Jensen's inequality)丹麦数学家约翰·琴生(Johan Jensen)命名。它给出积分凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论:过一个下凸函数上任意两点所作割线一定在这两点间的函数图象的上方,即:

Jensen's inequality 一般形式
我们可以得到如下的表达: 利用公式(9)和完全对数似然必须最大化的要求,可以确定出一个下界即:

其中,样本x_i的参数\tildeθ_i\tildeϕ_i是使用softmax输出作为权值的所有集群参数的凸组合。

损失函数基于完全对数似然值和软分配参数的下界,类似于其他聚类方法中通常使用的失真度量。表示如下:

由此,差异混合自编码器(DMAE)是将EM过程重新解释为一个具有对应于DMM参数的共享权重的编码器-解码器网络。在DMAE中,执行一个编码过程来计算 soft-assignments 或后验概率P(z_i|x_i),这等同于E步;同样,重构\tildeθ_i\tildeϕ_i被计算为潜在表示的线性解码,并最小化重构误差或失真度量L(公式(12))来更新模型的参数, 这相当于M步。
DMAE最重要的特性之一是,它由可微操作组成,因此可以通过基于梯度的优化将损失L最小化。像批处理学习和在线学习等方法可以使用,因为DMM假设是样本间独立同分布(i.i.d),允许其应用于具有控制内存消耗的大型数据集。此外,还可以利用无监督表示学习,通过利用反向传播和其他深度学习组件的外部梯度来增强DMAE。

Unsupervised Representation Learning

DMAE使用一个深度自编码器进行无监督表示学习,并将DMM合并到潜在空间中进行聚类。完整的架构可分为四个主要组件:deep encoder, dissimilarity mixture encoder, dissimilarity mixture decoder, and deep decoder.

  • Deep Encoder
    该组件将输入数据转换为一个更简单的表示或潜在空间。它定义了一个从原始输入空间到维度为R的空间\mathcal{H}的映射\mathcal{X→H}。这是通过在训练过程中学习的几个非线性变换来实现的。具体来说,它定义了一个函数f_1(·),该函数使用一组权值W_e将输入样本x_i∈R^m转换为潜在表示h_i∈R^R(R是潜在维度的大小)。
  • Dissimilarity Mixture Encoder (DM-Encoder)
    该组件将潜在表示h_i,软分配到K个类簇中。它定义了从空间\mathcal{H}到维度为K的潜在空间\mathcal{S}的映射\mathcal{H→S}。该表示等价于公式(2)中所示的DMM的赋值P(z_{ik}=1|x_i)和在均匀分布(α→0)和稀疏空间(α→∞)之间发生变化。它定义了聚类参数ΘΦ,并需要一个成对差异函数d_p(·)来计算差异向量d_i∈R^K,这样d_i中的每个值就表示h_i和所有集群参数θ_k∈Θ之间的差异性d(·)


    因此,软分配s∈R^K是通过softmax激活函数确定的,它使用软最大逆温度α来控制稀疏性和偏差向量(重参数混合系数)Φ∈R^K
  • Dissimilarity Mixture Decoder (DM-Decoder)
    该组件用于计算类簇参数\tildeθ_i\tildeϕ_i,定义了从稀疏空间\mathcal{S}到重建参数的潜在空间\mathcal{\tildeΘ}的映射\mathcal{S→\tilde Θ}。这是由所有类簇的参数ΘΦ的凸组合实现的,如公式(11)。如果该Θ可以构建成一个矩阵Θ∈R^{K×m},重建就等价于如下的矩阵乘法:

  • Deep Decoder
    正常的Decoder组件,意在学习从重建参数空间到重建输入空间的映射。它定义了一个函数f_2(·),该函数使用一组权值W_d将输入样本\theta_i∈转换为原始重建表示\tilde x_i如下:


    整体模型通过优化组合Loss函数进行学习。 Total loss

论文用了很巧妙的转化思想,将差异融合模型DMM融入到神经网络的学习中;利用将EM算法构建为编码和解码架构,使得概率顺理成章的成为了神经网络的表示。值得学习!

相关文章

网友评论

      本文标题:论文阅读“Dissimilarity Mixture Autoe

      本文链接:https://www.haomeiwen.com/subject/czrxvltx.html