K-means聚类算法（2）

K-means聚类算法（2）

作者: 大龙10 | 来源:发表于2023-08-20 06:26 被阅读0次

05 聚类算法 - 二分K-Means、K-Means++、K-
07 聚类算法 - 代码案例三 - K-Means算法和Mini
06 聚类算法 - 代码案例二 - K-Means算法和Mini
聚类算法之K均值算法(k-means)的Python实现
08 聚类算法 - 聚类算法的衡量指标
机器学习（8）——其他聚类
实验七数据挖掘之K-means聚类算法
大数据--聚类算法
Kmeans聚类
十大数据挖掘算法之K-Means

四、簇内误差平方和的定义

聚类算法聚出的类有什么含义呢？
这些类有什么样的性质？

1、含义

我们认为，被分在同一个簇中的数据是有相似性的，而不同簇中的数据是不同的，当聚类完毕之后，接下来需要分别研究每个簇中的样本都有什么样的性质，从而根据业务需求制定不同的商业或者科技策略。
聚类算法追求“簇内差异小，簇外差异大”。而这个 “差异”便是通过样本点到其簇质心的距离来衡量。

2、性质

对于一个簇来说，所有样本点到质心的距离之和越小，便认为这个簇中的样本越相似，簇内差异越小。
而距离的衡量方法有多种，令x表示簇中的一个样本点，μ表示该簇中的质心，n表示每个样本点中的特征数目，i表示组成点x的每个特征，则该样本点到质心的距离可以由以下距离来度量：
如采用欧几里得距离，则一个簇中所有样本点到质心的距离的平方和为：
其中，m为一个簇中样本的个数，j是每个样本的编号。
这个公式被称为簇内平方和（Cluster Sum of Square），又叫做Inertia。
而将一个数据集中的所有簇的簇内平方和相加，就得到了整体平方和（Total Cluster Sum of Square），又叫做Total Inertia。
Total Inertia越小，代表着每个簇内样本越相似，聚类的效果就越好。
因此K-Means追求的是：求解能够让Inertia最小化的质心。
实际上，在质心不断变化不断迭代的过程中，总体平方和是越来越小的。我们可以通过数学来证明，当整体平方和达到最小值的时候，质心就不再发生变化了。
如此，K-Means的求解过程，就变成了一个最优化问题。
在K-Means中，在一个固定的簇数K条件下，最小化总体平方和来求解最佳质心，并基于质心的存在去进行聚类。
两个过程十分相似，并且整体距离平方和的最小值其实可以使用梯度下降来求解。
大家可以发现， Inertia是基于欧几里得距离的计算公式得来的。
实际上，也可以使用其他距离，每个距离都有自己对应的Inertia。
在过去的经验中，已经总结出不同距离所对应的质心选择方法和Inertia，在K-Means中，只要使用了正确的质心和距离组合，无论使用什么距离，都可以达到不错的聚类效果。

五、K-Means算法的时间复杂度

K-Means算法是一个计算成本很大的算法。
K-Means算法的平均复杂度是O(knT)，
其中k是超参数，即所需要输入的簇数，n是整个数据集中的样本量，T是所需要的迭代次数。
在最坏的情况下，KMeans的复杂度可以写作O(n(k+2)/p)，其中n是整个数据集中的样本量，p是特征总数。

六、聚类算法的模型评估指标

在分类中，有直接结果（标签）的输出，并且分类的结果有正误之分，所以需要通过使用预测的准确度、混淆矩阵、ROC曲线等指标来进行评估，但无论如何评估，都是在评估“模型找到正确答案”的能力。
而在回归中，由于要拟合数据，可以通过SSE均方误差、损失函数来衡量模型的拟合程度。
但这些衡量指标都不能够用于聚类。
K-Means的目标是确保“簇内差异小，簇外差异大”，所以可以通过衡量簇内差异来衡量聚类的效果。
肘部法（手肘法）、轮廓系数、卡林斯基-哈拉巴斯指数

七、聚类算法的迭代问题

sklearn中也可以使用max_iter（最大迭代次数）或者tol两个参数来让迭代提前停下来。
max_iter：整数，默认300，单次运行的k-means算法的最大迭代次数；
tol：浮点数，默认1e-4，两次迭代间Inertia下降的量，如果两次迭代之间Inertia下降的值小于tol所设定的值，迭代就会停下。

八、优缺点

（1）K-Means算法的优点

原理比较简单，实现也是很容易，收敛速度快；
聚类效果较优，算法的可解释度比较强。

（2）K-Means算法的缺点

K值的选取不好把握；
对于不是凸的数据集比较难收敛；
如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳；
采用迭代方法，得到的结果只是局部最优；
对噪音和异常点比较的敏感。

九、结论

K均值（K-Means）聚类算法原理简单，可解释强，实现方便，可广泛应用在数据挖掘、聚类分析、数据聚类、模式识别、金融风控、数据科学、智能营销和数据运营等多个领域，有着广泛的应用前景。

相关文章

05 聚类算法 - 二分K-Means、K-Means++、K-
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类三、K-Means算...
07 聚类算法 - 代码案例三 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
06 聚类算法 - 代码案例二 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
聚类算法之K均值算法(k-means)的Python实现
聚类算法之K均值算法(k-means) 算法简介 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方...
08 聚类算法 - 聚类算法的衡量指标
07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估四、聚类...
机器学习（8）——其他聚类
层次聚类紧接上章，本章主要是介绍和K-Means算法思想不同而的其他聚类思想形成的聚类算法。 k-means算法...
实验七数据挖掘之K-means聚类算法
实验七、数据挖掘之K-means聚类算法一、实验目的 1. 理解K-means聚类算法的基本原理 2. 学会用p...
大数据--聚类算法
本篇结构简介聚类算法的分类 K-Means聚类算法 DBSCAN聚类算法本篇介绍了聚类算法的种类，重点关注K...
Kmeans聚类
1 聚类与分类的区别2 k-means 聚类基本概念3 算法优缺点4 算法思路5 代码实现 1 聚类与分类的区别 ...
十大数据挖掘算法之K-Means
一、K-Means聚类 1.1 大致概念 K-Means聚类，又称为K均值聚类，是一种常用的聚类算法，且为典型的基...

网友评论

本文标题：K-means聚类算法（2）

本文链接：https://www.haomeiwen.com/subject/bsxdmdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|K-means聚类算法（2）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！