美文网首页
聚类分析

聚类分析

作者: 浩宇Harry | 来源:发表于2018-10-08 10:11 被阅读0次

    物以类聚

    • 类中的个体具有相似性,相似性聚类
      无监督学习:使用不知类别的样本集进行分类器设计
    • 基于概率密度函数估计的方法(难点在于 密度函数如何估计)
    • 基于样本集间相似性度量的方法(聚类分析)
      训练前,甚至没有确切的类别数目和类别定义,需要根据待分类样本集的实际特征分布情况与分类活动的应用目的,通过训练样本来学习出类别数目和“类别的操作定义”同时为训练样本分配类别
    • 同类样本间的相似性大于 不同类样本间的相似性
      有效性:来自分类算法与样本特征分布的匹配
      聚类分析没有完整的理论基础

    特征设计对聚类分析的影响

    • 特征选取不当,使分类无效
    • 特征选取不足,使分类无效
    • 特征取多类,有多少个样本n取 n-1个特征的话,整个又太大了
      于是,需要降维,主成分分析
    • 另外 量纲选取不同 结果也很可能不同
      后面有个叫单位化处理,当我们选取一侧量纲过大时,在向量二次范数以上处理时
      量纲会有最小识别分别分度,所以 当一侧量纲过大过小 都有影响
    • 相似性(距离)测度不同,聚类结果则不同
    • 因此 特征,多少个特征,量纲,相似性度量(样本距离)
      不知道整个在数学上具体指哪一部分
    • 然而 前三个都是经验性的

    相似性测度

    • 衡量模式之间相似性的一种量度
      由n个特征样本组成的n维向量,称为该模式的特征矢量
      距离越小 越相似
    • 欧式距离(Euclidean)


      94DC3167-A35A-4256-A911-CDB3F7AAF965.png

    各特征维上应当是相同的物理量
    注意同物理量 量纲要一致

    • 马氏距离(Mahalanobis)


      D3AB0B49-26E8-442A-B4E8-17C260A1EB70.png

      协方差各个方向的差别程度

    • 明氏距离
    • 汉明距离


      7FC2B1C1-39D7-43A1-8F94-2FBFE427E4D6.png

      位数值不相同的个数 主要用二值的

    • 角度相似距离


      AB90354B-1E0A-4651-B1C1-886702CF6199.png

      量纲不同 会影响结果,但是角度不会受量纲 放大缩小

    • Tanimoto测度 BB958CDA-16DF-49CF-8BC4-43D5D913A5C9.png

    聚类准则
    -根据相似性测度确定的,衡量模式聚类结果中得到的聚类,是否满足某种优化目标的一个判断标准或方法
    确定聚类准则的两种方式
    1.阀值准则
    2.函数准则

    • 近邻聚类算法
      问题:有N个待分类

    • 最大最小聚类法
      都是先验经验作为聚类中心,分类到聚类中心 Z1,Z2对应的类别中
      1.选任意模式样本组作为第一聚类中心
      2.选择离Z1距离最远的样本作为第二聚类中心Z2
      3.逐个计算各模式样本Xi与已确定的所有聚类中心Zi之间的距离,
      并选出其中的最小距离。例如:当目前聚类中心数k=2时,计算Di1=Xi-Zi

    • 最大最小聚类算法 已经做过题了 但是 当聚类中心改变 成三者时,差值就很多。
      然后θ 其实 和 阀值 和 聚类中心密度,个数 都是有直接关系当

    • 层次聚类法
      N个初始样本,各自成一类
      然后得各个类之间的距离矩阵D(n) NxN
      假设已求得距离矩阵D(n) n为逐次聚类合并当次数,两类合并为一类 重新计算
      还真是 自底向上构成一个树

    • 最短距离法

    0EE5113E-3CA0-4D99-927A-D29E91E77049.png

    K-均值算法 就是不断更新聚类中心,用上一次计算出的z值结果,作为下一次的聚类中心 进行计算。

    相关文章

      网友评论

          本文标题:聚类分析

          本文链接:https://www.haomeiwen.com/subject/qtgjgftx.html