如何确定聚类的类别个数
-
由适当的阈值确定
-
根据数据点的散布图直观地确定类的个数
-
手肘法,利用核心指标SSE(sum of the squared errors误差平方和)在k增大时下降的斜率来判断,选取下降程度变化由剧烈到平滑的分割点,即肘部
SSE=\sum_{i=1}^{k}\sum_{p\in C_i}|p-m|^2 -
轮廓系数法:轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。
先计算每个样本的轮廓系数S
S=\frac{b-a}{\max(a, b)}
a(凝聚度)是类内平均距离,b(分离度)是最近簇平均距离。
然后计算所有样本的平均轮廓系数,选取轮廓系数最大的k值。 -
DBI(Davies Bouldin index)(戴维森堡丁指数)(分类适确性指标)
Davies-Bouldin
对于DBI,每个类别的R_i是当前类内与周围某个类的区分度的倒数,S_i、S_j越大,d_{ij}越小,表示类内离散度大,类间离散度小,所以聚类效果不好,R_i很大。
反之S_i、S_j越小,d_{ij}越大,此时聚类效果也好,R_i很小。 -
CH指标
Calinski-Harabasz
CH指标越大越好
网友评论