PYTHON 实现K-Means 聚类算法

PYTHON 实现K-Means 聚类算法

作者: Mister7 | 来源:发表于2020-04-27 13:23 被阅读0次

2018-12-19
05 聚类算法 - 二分K-Means、K-Means++、K-
07 聚类算法 - 代码案例三 - K-Means算法和Mini
06 聚类算法 - 代码案例二 - K-Means算法和Mini
K-means原理、优化、应用
聚类算法之K均值算法(k-means)的Python实现
08 聚类算法 - 聚类算法的衡量指标
聚类
机器学习（8）——其他聚类
K均值算法（K-Means）

根据网上的参考文献，简单的概况了一下要点和具体怎么实现。

实现聚类首先要了解一下几个要点：

什么是聚类？什么是簇？

聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。

如下图，有4个簇：

Inertia？

簇内所有点到该簇的质心的距离的总和。质心可以理解为簇的中心点。

可以说Inertia越小，我们的聚类越好

距离怎么计算呢？

计算俩点之间的距离有很多公式，我们以欧式距离公式为例。

K-Means是什么？

K-Means是基于质心或基于距离的算法，根据每个点到质心的距离来分别计算出属于哪个簇。

K-Means算法主要目标是计算出最小的各个点到自质心距离的总和。

原文如下：

The main objective of the K-Means algorithm is to minimize the sum of distances between the points and their respective cluster centroid.

K-Means实现步骤：

第一步和第二步： 选择簇的个数K，然后随意选择点位质心。我们假设K为2。

第三步：将所有点分配到质心距离最近的簇。这样我们就完成了第一次簇的选择。

第四步：根据现在簇的位置，重新计算簇的质心。按照最小距离之和的原则找出质心的位置。有了新的质心也就有了新的簇。

第五步：重复第三步和第四步

计算出新质心并基于各个点与质心的距离将所有点分配给簇的步骤是单次迭代。

那什么时候该停止迭代呢？

停止K-means聚类的三种标准：

a.新形成的簇的质心不会改变

b.数据点保留在同一个簇中

c.达到最大迭代次数

以第一个标准为例，如果新形成的簇的质心没有变化，我们就可以停止迭代。

即使在多次迭代之后，所有簇都还是相同的质心，我们可以说该算法没有学习任何新模式，所以它是停止训练的标志。

现在让我们用PYTHON代码实现上述逻辑。

以用户的收入和贷款分类用户为例子。数据可以在原文章上下载，链接在最底部。

导入需要的库，然后查看前五行数据看一下数据结构。

Pandas, numpy, matplotlib等等。

选择"LoanAmount","ApplicantIncome"两列数据作为数据可视化的X,Y轴。

可视化效果如下：

接下来我们进行第一步和第二部：选择要分几个cluster(K),然后随机选择样本。

第三步：利用欧式距离公式计算个点到质心的距离

第四步：找到新的质心

第五步：有新的质心更新就重新计算距离，知道不在有更新。

代码详解如下图：

代码其实分解来看的话很好理解。

*PS:如果用 sklearn库的话，这些方法都被封装好了。直接调用就行。但是为了理解算法原理推荐过一遍上述代码。

执行上述代码会得到下列结果。其中0表示质心不在发生变更。

最后我们可以可视化我们的聚类成果。

原文链接：https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/

相关文章

2018-12-19
文本聚类算法之K-means算法的python实现一、文本聚类定义文本聚类主要是依据著名的聚类假设：同类...
05 聚类算法 - 二分K-Means、K-Means++、K-
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类三、K-Means算...
07 聚类算法 - 代码案例三 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
06 聚类算法 - 代码案例二 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
K-means原理、优化、应用
一、了解 K-means。 K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广...
聚类算法之K均值算法(k-means)的Python实现
聚类算法之K均值算法(k-means) 算法简介 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方...
08 聚类算法 - 聚类算法的衡量指标
07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估四、聚类...
聚类
K-means算法（理论+opencv实现） OpenCV3.3中K-Means聚类接口简介及使用
机器学习（8）——其他聚类
层次聚类紧接上章，本章主要是介绍和K-Means算法思想不同而的其他聚类思想形成的聚类算法。 k-means算法...
K均值算法（K-Means）
博客CSDN：深入浅出K-Means算法博客：机器学习算法-K-means聚类分布式：MapReduce实现并行化...

网友评论

本文标题：PYTHON 实现K-Means 聚类算法

本文链接：https://www.haomeiwen.com/subject/abqywhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|PYTHON 实现K-Means 聚类算法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！