【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的

【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的

作者: 南方者 | 来源:发表于2020-04-26 13:27 被阅读0次

【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的
weka3.8导入libsvm
Kmeans算法
数据挖掘-KMeans算法
2020-05-23 第十五章 Kmeans聚类
K均值聚类及代码实现
机器学习软件Weka，更好地解决数据挖掘问题
[WEKA] 1 概览
【机器学习实践】kmeans算法实践
KNN与K-Means算法的区别

源自：K-means 算法【基本概念篇】

1. Kmeans算法的认识

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，也是一种无监督的机械学习算法。

聚类的认识

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。

k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。算法采用误差平方和准则函数作为聚类准则函数。

2. Kmeans具体的算法描述

需要把数据点分成三类。我们需要遵循下面的几个步骤

(注意：分类，其实是分割的意思，表达的意思是聚类。)

    1. 选取三个类的初始中心

    2. 计算剩余点到这三个中心的距离

    3. 将距离中心点距离最短的点归为一类

    4. 依次划分好所有的数据点

    5. 重新计算中心

    6. 重复2-5 个步骤，直到中心点不会在变化为止

第一步选择中心点

随机选择坐标系上的几个点。

第二步计算点之间的距离

两个点之间的距离用曼哈顿聚类距离，也可以叫做城市街区距离。

曼哈顿聚类距离求法

举例（一个二维的数据集）

坐标系上存在八个点：

A1 ( 2 ,10 )、 A2 ( 2 , 5 )、 A3 ( 8 , 4 ) 、A4 ( 5 , 8 )、 A5 ( 7 , 5) 、A6 ( 6 , 4) 、A7 ( 1 , 2 ) 、A8 ( 4 , 9 )

选择在XY坐标上的任意三个点，当然可以选择更多都是可以的。

这里选取的初始点是A1(2,10)，A4(5,8)，A7(1,2)分别命名为点1，点2，点3

操作例图1

点1和A1的曼哈顿聚类距离：| 2 - 2 | + | 10 - 10 | = 0

点1和A1的曼哈顿聚类距离

点2和A1的曼哈顿聚类距离：| 5 - 2 | + | 8 - 10 | = 5

点2和A1的曼哈顿聚类距离

点3和A1的曼哈顿聚类距离：| 1 - 2 | + | 2 - 10 | = 9

点3和A1的曼哈顿聚类距离

（ 注意： 中心点的选取不同，最后的聚类结果可能大不相同）

这时，已经得到了第一轮的结果，需要重新计算每个聚类中心

第一轮的结果

点1：

对于第一个聚类只有一个点所以它的聚类的中心就是自己

点2：

X ：( 8 + 5 + 7 + 6 + 4 ) / 5 = 6

Y ：( 4 + 8 + 5 + 4 + 9 ) / 5 = 6

中心点就是（ 6 ，6 ）

点3：

X ：( 2 + 1 ) / 2 = 1.5

Y ：( 5 + 2 ) / 2 = 3.5

这时，进行第二轮迭代：

第二轮迭代

这时，得到了第二轮的结果，也需要重新计算每个聚类中心

第二轮的结果

点1：

X ：( 2 + 4 ) / 2 = 3

Y ：( 10 + 9 ) / 2 = 9.5

点2：

X ：( 8 + 5 + 7 + 6 ) / 4 = 6.5

Y ：( 4 + 8 + 5 + 4 ) / 4 = 5.25

中心点就是（6，6 ）

点3：

X ：( 2 + 1 ) / 2 = 1.5

Y ：( 5 + 2 ) / 2 = 3.5

第三轮的结果

这时，得到了第三轮的结果，还需要重新计算每个聚类中心

点1：

X ：( 2 + 5 + 4 ) / 3 = 3.67

Y ：( 10 + 8 + 9 ) / 3 = 9

点2：

X ：( 8 + 7 + 6 ) / 3 = 7

Y ：( 4 + 5 + 4 ) / 3 = 4.33

中心点就是（6，6 ）

点3：

X ：( 2 + 1 ) / 2 = 1.5

Y ：( 5 + 2 ) / 2 = 3.5

第四轮的结果

此时，发现第四轮的结果和第三轮的结果一致了，可以停止该算法了。

可以看一下这个迭代过程的图谱

1. 选择中心点后

选择中心点后的图谱

2.依次迭代的过程：

第二轮的结果

第三轮的结果

第四轮的结果

相关文章

【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的
源自：K-means 算法【基本概念篇】 1. Kmeans算法的认识 k均值聚类算法（k-means clust...
weka3.8导入libsvm
由于最近使用weka3.8，需要用到svm算法挖掘数据，但是因为weka3.8本身不具备svm算法，就需要将相关的...
Kmeans算法
Kmeans算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。Kmeans算法的基本思想是：以空间中...
数据挖掘-KMeans算法
K-Means属于聚类算法，是一种无监督学习算法，没有训练集和测试集之分，也没有正确分类的标签与之参照来提升学习效...
2020-05-23 第十五章 Kmeans聚类
第十五章 Kmeans聚类 01 Kmeans聚类的思想和原理模型介绍对于有监督的数据挖掘算法而言，数据集中需...
K均值聚类及代码实现
KMeans聚类在聚类算法中，最出名的应该就是k均值聚类(KMeans)了，几乎所有的数据挖掘/机器学习书籍都会...
机器学习软件Weka，更好地解决数据挖掘问题
Weka是解决现实世界数据挖掘问题的机器学习算法的集合。它用Java编写，几乎可以在任何平台上运行。这些算法可以直...
[WEKA] 1 概览
A LITTLE BIT OF EVERYTHING 什么是数据挖掘？什么是Weka？数据挖掘是一门成熟的技术，...
【机器学习实践】kmeans算法实践
kmeans算法 kmeans算法是一种聚类算法，用于无标签数据的自行归类。讲kmeans的原理有很多，个人参考的...
KNN与K-Means算法的区别
内容参考：Kmeans算法与KNN算法的区别kNN与kMeans聚类算法的区别 KNN-近邻算法-分类算法思想：...

网友评论

本文标题：【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的

本文链接：https://www.haomeiwen.com/subject/yccxvhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|【weka应用技术与实践】【数据挖掘】举例说明Kmeans算法的|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！