美文网首页
模式识别——聚类分析 学习笔记

模式识别——聚类分析 学习笔记

作者: 仰望星空的小狗 | 来源:发表于2019-08-14 13:50 被阅读0次

    聚类分析相关概念

    聚类分析——对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类
    聚类中,将样本根据相似程度进行分类,这个相似程度就是用样本特征之间的相似程度。把整个模式样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为模式相似性的测量依据,也就是将特征空间中距离较近的样本归为一类。
    其中,特征的选择非常重要。当特征选少了,可能导致聚类困难;特征选多了,就会增加计算量。

    模式相似性的测度和聚类准则

    相似性测度

    为了能将模式集划分成不同的类别,必须定义一种相似性的测度,来度量同一类样本间的类似性和不属于同一类样本间的差异性。
    相似性测度一般有欧氏距离、马氏距离、明氏距离等。
    其中,用作测度的各种距离的量纲的选择要保持一致,否则,选择不同的量纲会导致不同的分类,如下图。


    这里写图片描述

    聚类准则

    有了模式的相似性测度,还需要一种基于数值的聚类准则,能将相似的模式样本分在同一类,相异的模式样本分在不同的类。聚类准则一般有试探方法和聚类准则函数法。

    聚类算法举例

    KNN最近邻算法

    该算法的步骤如下:
    给定N个待分类的模式样本{x_1, x_2, …, x_N},要求按距离阈值T,将它们分类到聚类中心z_1, z_2, …。
    第一步——
    任取一样本x_i作为一个聚类中心的初始值,例如令z_1 = x_1
    计算D_{21} = || x_2 - z_1 ||
    若D_{21} > T,则确定一个新的聚类中心z_2 = x_2
    否则x_2属于以z_1为中心的聚类
    第二步——
    假设已有聚类中心z_1、z_2
    计算 D_{31} = || x_3 - z_1 ||
    D_{32} = || x_3 - z_2 ||
    若D_{31} > T且D_{32} > T,则得一个新的聚类中心z_3 = x_3
    否则x_3属于离z_1和z_2中的最近者
    ······
    如此重复下去,直至将N个模式样本分类完毕。

    K均值算法

    第一步——
    选K个初始聚类中心,z_1(1),z_2(1),…,z_K(1),其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K个模式样本的向量值作为初始聚类中心。
    第二步——
    逐个将需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个z_j(1)。
    假设i=j时,D_j(k)=min\{||x-z_i(k)||,i=1,2,...,k\},则x\in S_i(k),其中k为迭代运算的次序号,第一次迭代k=1,S_j表示第j个聚类,其聚类中心为z_j。
    第三步——
    计算各个聚类中心的新的向量值,z_j(k+1),j=1,2,…,K 求各聚类域中所包含样本的均值向量:
    $$ z_j(k+1)=\frac{1}{N}\sum_{x\in S_j(k)}x,j=1,2,...,K $$$在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K均值算法。**第四步——**若z_j(k+1)\neq z_j(k) ,j=1,2,…,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;
    若z_j(k+1)=z_j(k) ,j=1,2,…,K,则算法收敛,计算结束。
    $
    $$$$
    *本人才疏学浅,文中若有不当之处,望请指点

    相关文章

      网友评论

          本文标题:模式识别——聚类分析 学习笔记

          本文链接:https://www.haomeiwen.com/subject/zjegjctx.html