美文网首页
论文阅读“BP Neural Network-Based Dee

论文阅读“BP Neural Network-Based Dee

作者: 掉了西红柿皮_Kee | 来源:发表于2021-11-08 11:26 被阅读0次

    Zeng Q, Chen W S, Pan B. BP Neural Network-Based Deep Non-negative Matrix Factorization for Image Clustering[C]//International Conference on Intelligent Computing. Springer, Cham, 2020: 378-387.

    摘要翻译:

    深度非负矩阵分解(DNMF)是一种很有发展的非负性多层特征提取方法。大多数DNMF算法都是重复运行单层NMF来构建层次结构。他们必须通过微调策略来消除累积的错误,但这比较耗时。为了解决现有DNMF算法的缺点,本文提出了一种新的利用反向传播神经网络(BPNN)的深度自动编码器。它可以自动生成一个深度非负矩阵分解,称为基于BPNN的DNMF(BP-DNMF)。实验结果表明,所提出的BP-DNMF算法具有收敛性。与一些最先进的DNMF算法相比,实验结果表明,该方法具有优越的聚类性能和较高的计算效率。

    Intro:

    非负矩阵分解(NMF)的目的是找到两个因子WH,使X \approx WH,其中X是一个样本的数据矩阵,WH是非负的,分别称为基样本矩阵和特征矩阵。NMF可以学习基于部分的样本数据表示,并表现出其处理分类和聚类任务的能力。然而,NMF及其变体仅仅是单层分解方法,因此不能揭示数据的底层层次特征结构。而深度学习的实证结果表明,基于多层特征的方法优于基于浅层学习的方法。因此,一些研究者提出了基于单层NMF算法的深度NMF模型。有学者采用单层稀疏NMF生成迭代规则H_{i-1}=W_iH_i, i=1,...L,其中H_0=X。最终的分解结果为X=W_1W_2....W_LH_L。但该DNMF算法在重建上有一个很大的误差其性能会受到负面影响。【A deep orthogonal non-negative matrix factorization method for learning attribute representations(2017)】 将一个单层正交的NMF扩展到一个深度体系结构。他们的更新规则是W_{i-1}=W_iH_i, i=1,...L;其中W_0=X。最终的深度分解是X=W_1H_1H_2....H_L。该正交DNMF采用了一个微调步骤来减少因子分解的总误差,并显示了其在人脸图像聚类中的有效性。为增加DNMF的扩展性,【A deep matrix factorization method for learning attribute representations(2017)】提出了一种具有X \approx W_1^{\pm}W_2^{\pm}...W_L^{\pm}H_L深度分解形式的半DNMF模型,对于这样的模型是没有限制矩阵的符号的。半DNMF模型还通过预训练和微调两个阶段进行了求解,并可以学习对面部图像进行聚类和分类的隐藏表示。可以看出,大多数DNMF方法都需要使用微调策略来减少模型的整个重构误差。然而,这导致了很高的计算复杂度。此外,现有的DNMF算法都没有使用深度神经网络(DNN)获得层次特征结构,也无法利用DNN的优势进行聚类。
    为了解决基于单层NMF的DNMF方法的问题,本文提出了一种新的基于BPNN的DNMF(BP-DNMF)方法。利用标记原始样本数据的RBF,得到作为BPNN输入的块对角相似矩阵。同时,将原始数据设置为网络的真实目标。该模型可以看作是一个深度自动编码器。特别是,自动编码器会自动生成一个具有深度层次结构的图像数据表示。所提出的BP-DNMF方法具有较高的计算效率,因为它直接避免了微调步骤。

    DNMF
    大多数DNMF算法通过递归地利用某些单层NMF生成层次特征结构,并得到以下深度分解: 这通常被称为预训练阶段,为了减少巨大的重建误差,该方法设立了以最小化重建损失为目标的损失函数:
    BP-DNMF浅析

    该部分介绍一种基于BP神经网络的自动编码器。该自动编码器能够在图像数据上自动创建深度非负矩阵分解,从而避免了微调阶段的高计算复杂度。最后将所提出的BP-DNMF应用于层次特征提取和图像聚类。

    Auto-encoder

    这里作者给出了一种新的数据定义的方式,整体的训练数据可以表示为:

    其中,每个X_i是第i个类簇所包含的样本数据: c是所有的类簇的个数,总样本数为各类簇包含样本的总量:
    作者提出的auto-encoder包含:数据到相似矩阵以及相似矩阵到数据两个部分。
    • Data X to Similarity Matrix H:
      利用训练数据的径向基函数(RBF),根据两个数据属于同一类,相似性较高,否则相似性较低,生成块对角相似性矩阵H。(关于这一部分的构造可以后续进行思考,脱离对数据标签的依赖--如:编码+一致)详细的说,相似矩阵 以及H_i= 该步骤相当于在每个类簇中都构造了一个由数据表示生成的相似矩阵,其中的相似度的值使用的是如上的k(x,y)度量方式。可以看出,矩阵H具有良好的数据X聚类特征。
    • Similarity Matrix H to data X
      作者利用输入H和目标X建立和优化多层BP神经网络的结构。首先通过设置L层数和每一层神经元数等来确定BPNN的结构。各权重矩阵W_i(i=1,...,L)由标准正太分布进行初始化,激活函数和偏置分别设置为f(x)=p^{1/L} \cdot x, (p>0)0。(注:一般情况下,为了更好的学习表示,偏置项不为0,但是在矩阵分解中,都要表示为矩阵连乘的方式,因此要将该偏置项设置为0
      网络的损失函数可以表示为:
      在该网络中采用梯度下降法更新权重矩阵。优化过程如下:
    • 前向
    1. 构建深度神经网络的结构,包括指定层L和每层神经元数量;
    2. 分别设置网络的输入和输出目标\alpha_0=H_jX_j (j=1,2,...,n),其中H_jX_j分别是矩阵HX中的第j列。(注:对于这两个矩阵而言,列向量对应的是数据集中第j条样本表示)
    3. 以标准正太分布N(0,1)初始化L个层的权重矩阵,W_i(i=1,2,...,L),并将偏置项设置为0
    4. 对于第i层,计算其输入z_i=W_i \cdot \alpha_{i-1},输出为\alpha_i=f(z_I)=p^{1/L} \cdot z_i, i=1,...,L
    • 后向
      对于每个样本构造一个输入输出的对应loss
      关于参数p的更新则是利用了tr之比。

    在网络训练之后,可以得到第j个样本的表示X_j \approx \alpha_L, 其中\alpha_L为:


    由此,BP-DNMF可以被表示为:
    Hierarchical Feature Extraction

    假设y是一个待查询示例样本,h_i是它在第i(i=1,...,L)层上的潜在特征,然后可以通过以下公式来计算出特征h_i

    Application to Image Clustering

    作者在实验部分的交代有点仓促,在设置L=3的情况下,只对于H_3的输出进行了聚类结果的展示,而对层次结构的探索似乎也没有进行。按理说,至少应该对每一层特征的表示进行可视化或者聚类结果的展示,但并没有。可能是因为该论文为short paper。

    相关文章

      网友评论

          本文标题:论文阅读“BP Neural Network-Based Dee

          本文链接:https://www.haomeiwen.com/subject/mchuzltx.html