美文网首页
5 聚类 - 性能度量

5 聚类 - 性能度量

作者: shanshan302 | 来源:发表于2019-01-18 08:47 被阅读0次

    外部指标 (要求数据集有标签)

    image.png
    • 调整兰德系数 Adjusted Rand Index
      描述分类与真实标签的相似度
      1) RI取值范围为[0,1],RI越大聚类效果越准确,即每个类内的纯度越高
      2) ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。


      image.png

      其中,a代表同类别同标签元素对数, b代表不同类别不同标签元素对数

    • jaccard
      又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

    内部指标 (针对无标签数据)

    image.png

    相对指标

    • 轮廓系数

    轮廓系数描述的是 样本是否被正确分类的评分


    image.png

    轮廓系数可以用于确定k值


    image.png image.png

    评判分类效果


    image.png

    轮廓系数的缺点: 如双环形数据集,单连接和DBSCAN可以完美分割,但是得分却很低,因而轮廓系数更适合用于紧凑的数据聚类


    image.png

    聚类算法评价指标

    相关文章

      网友评论

          本文标题:5 聚类 - 性能度量

          本文链接:https://www.haomeiwen.com/subject/xwqwdqtx.html