美文网首页
5 聚类 - 性能度量

5 聚类 - 性能度量

作者: shanshan302 | 来源:发表于2019-01-18 08:47 被阅读0次

外部指标 (要求数据集有标签)

image.png
  • 调整兰德系数 Adjusted Rand Index
    描述分类与真实标签的相似度
    1) RI取值范围为[0,1],RI越大聚类效果越准确,即每个类内的纯度越高
    2) ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。


    image.png

    其中,a代表同类别同标签元素对数, b代表不同类别不同标签元素对数

  • jaccard
    又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

内部指标 (针对无标签数据)

image.png

相对指标

  • 轮廓系数

轮廓系数描述的是 样本是否被正确分类的评分


image.png

轮廓系数可以用于确定k值


image.png image.png

评判分类效果


image.png

轮廓系数的缺点: 如双环形数据集,单连接和DBSCAN可以完美分割,但是得分却很低,因而轮廓系数更适合用于紧凑的数据聚类


image.png

聚类算法评价指标

相关文章

  • 5 聚类 - 性能度量

    外部指标 (要求数据集有标签) 调整兰德系数 Adjusted Rand Index描述分类与真实标签的相似度1)...

  • 聚类中的性能度量

    聚类 在无监督学习中,训练样本的标记是没有指定的,通过对无标记样本的训练来探索数据之间的规律。其中应用最广的便是聚...

  • 分类器评估方法

    使用sklearn.metrics包中的性能度量函数 分类器性能指标 回归器性能指标 聚类器性能指标 两两距离测度...

  • Day4|Python数据分析与挖掘实战|聚类分析

    聚类分析 主要内容: 1. 聚类分析思想 2. 主要聚类方法 3. 类间、类内距离的度量 4. 层次聚类(...

  • 常用聚类以及聚类的度量指标:

    一年前需要用聚类算法时,自己从一些sklearn文档和博客粗略整理了一些相关的知识,记录在电子笔记里备忘,现在发到...

  • 2019-05-05

    密度聚类 一、密度打败划分 k-means聚类过分依赖点与点之间的距离度量,忽略了周边的因素,而密度聚类则考虑了周...

  • 聚类算法综述

    目前的心得是聚类算法的性能最重要的是如何衡量相似性 相似性度量方式 闵科夫斯基距离 当p=1时,为曼哈顿距离,p=...

  • 性能度量

    分类中使用错误率和精度 查准率(precision),查全率(recall) P = TP/(TP+FP) R= ...

  • 性能度量

    在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。 无监督学习的目标:通过...

  • 距离度量以及性能评估方法

    一.距离度量 对于聚类,其实之前已经有算法涉及了,比如GMM,这一章开始再次做系统介绍。聚类的核心思想套用一句俗语...

网友评论

      本文标题:5 聚类 - 性能度量

      本文链接:https://www.haomeiwen.com/subject/xwqwdqtx.html