聚类评估的任务是估计在数据集上进行聚类的可行性,以及聚类方法产生结果的质量。这一过程又分为三个子任务:
1、估计聚类趋势
检测数据分布中是否存在非随机的簇结构。
- 观察法:可以观察聚类误差是否随聚类类别数量的增加而单调变化,如果数据是基本随机的,即不存在非随机簇的结构,那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著,并且找不到一个合适的 K 对应数据的真实簇数。
- 霍普金斯统计量:判断数据在空间上的随机性。如果样本接近随机分布,即 H 的值接近于 0.5,如果聚类趋势明显,则随机生成的样本点距离应该远大于实际样本点的距离,H 值接近于 1.
2、判定数据簇数
- 手肘法
- Gap Statistic 方法
3、测定聚类质量
- 轮廓系数
- 均方根标准偏差
- R 方:用来衡量聚类的差异度,RS 代表了聚类之后的结果与聚类之前相比,对应的平方误差与指标改进幅度。
- 改进的 HubertT统计:通过数据对的不一致性来评估聚类的差异。当值越大说明聚类的结果与样本的原始距离越吻合,聚类质量越高。
网友评论