Kmeans聚类

作者: 云彩修建站站长 | 来源:发表于2019-10-17 19:22 被阅读0次

kmeans是简单易懂又很常用的一种聚类方法。
对于kmeans的聚类，我着力弄懂如下一些问题：

聚类步骤

质心的初始化方式

sklearn的质心有如下几种初始化方式：

这个指标可以衡量类内的聚合程度和类间的离散程度。
对于单个样本的轮廊系数，可以使用：
$s(i)=\frac{b(i)-a(i)}{max(a(i),b(i))}$
解释如下：

$a(i)$ 表示该样本点到同簇样本的平均距离。 $a(i)$ 越小表示i在这个簇越合理。
$b(i)$ 表示该样本点到其他簇样本点的平均聚类。 $b(i)$ 越大表示i越不属于其他的簇。
s(i)的取值范围是[-1,1]，越大说明该点分配正确的概率越高。对所有样本点取均值就获得了平均轮廊系数。

网上关于k值的选择，最经典的是手肘法。但是有人说，在实际情况中，画出来的曲线很难像手肘一样，最好还是根据实际业务来确定分的类别。

手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，随着K值的增大，理论上SSE会递减，直到到达一个合理的簇数，当K再减小的时候，SSE就不会降低太多。
最终的曲线是达到理想的K值之前，SSE快速下降；超过了理想的K值，下降速度减缓，出现一个肘部。

这里的SSE也可以使用轮廊系数来确定。

本文标题：Kmeans聚类

本文链接：https://www.haomeiwen.com/subject/kudvmctx.html