聚类分析

作者: 魔人啾啾 | 来源:发表于2016-01-11 07:55 被阅读72次

上回简略说了相关分析，这回来说说聚类分析。它的功能就是算行与行数据间的距离，按照指定的层数和数据间的距离，将数据分类。分完类后，我们会检查分类效果。

这里说下从聚类开始以下介绍的方法，归属于数据挖掘（Data mining）。数据挖掘和机器学习，两者概念差不多。但机器学习要求将数据分为训练组（trian）和测试组（test）。训练组让机器学习分类的标准规则。而测试组是让机器自己用规则分类。

回到正题说聚类。

以下为数据身高体重智商

尼康 170 60 103

大阳 163 70 115

夜一 180 75 116

数据出来，来解释解释距离。身高列 170-163=7，7就是距离，180-163=17,180-170=10. 如果分2类的话尼康和大阳距离最短，会分到一类。当然还要根据体重及智商的距离和判断。

这里提两点。一是注意数据，如果体重换到斤为单位，那距离就会因为单位的原因而变大。我们需要对每列做单位化处理。二是距离的定义是多样的，并非出例子所说的欧式距离。不同距离，分类结果稍有差异。

我们用聚类一般初处理分类，由于没有训练，所以不能确定分类结果。之后肯定是要跟机器学习算法相符，来搭建这个模型。

网友评论

本文标题：聚类分析

本文链接：https://www.haomeiwen.com/subject/trvqkttx.html

聚类分析