描述
聚类就是将数据集划分为由若干相似对象组成的多个组或簇的过程,使得同一组中对象的相似度最大化,不同组中对象间的相似度最小化。
分类
- 基于划分的方法
- 基于层次的方法
- 基于密度的方法
- 基于图的方法
评价方法
聚类性能度量亦称有效性指标,分为:外部指标,聚类完成后将聚类结果与某个参考模型进行比较;内部指标,直接考察聚类结果而不利用任何参考模型。
外部指标
- 混淆矩阵
Precision,Recall,F-measure
- 兰德指数RI
内部指标
-
Dunn指数(DI)
Dunn
计算两个簇的簇间最短距离除以任意簇中的最大距离,DI越大说明聚类效果越好。同样对环状分布的数据效果不好,且对离散点的聚类测评很高。
- SSE
一个簇的误差平方和即簇内各点到质心欧式距离的平方和,此方法对离散点的聚类测评很高
SSE
Python 聚类项目
设计一个Python聚类小项目,项目包括以下四个模块,模块阐述如图所示,该项目可调用多种聚类算法,并比较结果
项目架构
Ref:
机器学习之聚类概述及评价指标
网友评论