一文总结聚类分析步骤！

作者: spssau | 来源:发表于2022-04-25 16:48 被阅读0次

一文总结聚类分析步骤！
第五天：聚类分析与判别分析
2019-03-07
手把手教你用SPSSAU做聚类分析
聚类分析的原理和应用(-)
聚类分析方式大汇总！
利用聚类算法研究大数据微信公众号实例
聚类分析（1）之市场细分
通过聚类分析进行用户分类的思考
聚类分析

一、聚类

1.准备工作

（1）研究目的

聚类分析是根据事物本身的特性研究个体分类的方法，聚类分析的原则是同一类别的个体有较大相似性，不同类别的个体差异比较大。

（2）数据类型

1）定量：数字有比较意义，比如数字越大代表满意度越高，量表为典型定量数据。

2）定类：数字无比较意义，比如性别，1代表男，2代表女。

PS：SPSSAU会根据数据类型自动选择聚类方法。

K-modes聚类：数据类型仅定类时。

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

（1）拖拽分析项

1） SPSSAU进阶方法→聚类。

2）检查

检查分析项是否都在左侧分析框中。

3）进行拖拽

（2）选择参数

聚类个数：聚类个数设置为几类主要以研究者的研究思路为标准，如果不进行设置，SPSSAU默认聚类个数为3，通常情况下，建议设置聚类数量介于3~6个之间。

标准化：聚类算法是根据距离进行判断类别，因此一般需要在聚类之前进行标准化处理，SPSSAU默认是选中进行标准化处理。数据标准化之后，数据的相对大小意义还在（比如数字越大GDP越高），但是实际意义消失了。

保存类别：分析选择保存‘保存类别’，SPSSAU会生成新标题用于标识，也可以右上角“我的数据”处查看到分析后的“聚类类别”。

新标题类似如下：Cluster_********。

4.SPSSAU分析

（1）聚类类别基本情况汇总分析

使用聚类分析对样本进行分类，使用Kmeans聚类分析方法，从上表可以看出：最终聚类得到4类群体，此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。整体来看， 4类人群分布较为均匀，整体说明聚类效果较好。

（2）聚类类别汇总图分析

上图可以直观的看到各个类别所占百分比，4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。

（3）聚类类别方差分析差异对比

使用方差分析去探索各个类别的差异特征，从上表可知：聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体，他们在研究项上的特征具有明显的差异性，具体差异性可通过平均值进行对比，并且最终结合实际情况，对聚类类别进行命名处理。

（4）聚类项重要性对比

从上述结果看，所有研究项均呈现出显著性，说明不同类别之间的特征有明显的区别，聚类的效果较好。

（5）聚类中心

5.其它说明

（1）聚类中心是什么？

聚类中心是聚类类别的中心点情况，比如某类别时年龄对应的聚类中心为20，意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义，它是聚类算法随机选择的聚类点，如果需要查看聚类中心情况，需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小，其仅为聚类算法的计算值而已。

（2）k-prototype聚类是什么？

如果说聚类项中包括定类项，那么SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法）。定类数据不能通过数字大小直接分析距离，因而需要使用K-prototype聚类算法。

（3）聚类分析时SSE是什么意思？

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值，该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，而且如果同样的数据，聚类类别越多则SSE值会越小（但聚类类别过多则不便于分析）。

SSE指标可用于辅助判断聚类类别个数，建议在不同聚类类别数量情况下记录下SSE值，然后分析SSE值的减少幅度情况，如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大，那么此时选择4个聚类类别较好。

二、分层聚类

1.准备工作

（1）研究目的

从分析角度上看，聚类分析可分为两种，一种是按样本（或个案）聚类，此类聚类的代表是K-means聚类方法；另外一种是按变量（或标题）聚类，此类聚类的代表是分层聚类。

（2）数据类型

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

（1）拖拽分析项

1） SPSSAU进阶方法→分层聚类。

2）检查

检查分析项是否都在左侧分析框中。

3）进行拖拽

（2）确定参数

SPSSAU会默认聚类为3类并且呈现表格结果，如果希望更多的类别个数，可自行进行设置。

4.SPSSAU分析

（1）聚类项描述分析

上表格展示总共8个分析项（即8个裁判数据）的基本情况，包括均值，最大或者最小值，中位数等，以便对于基础数据有个概括性了解。整体上看，8个裁判的打分基本平均在8分以上。

（2）聚类类别分布表分析

总共聚类为3个类别，以及具体分析项的对应关系情况。在上表格中展示出来，上表格可以看出：裁判8单独作为一类；裁判5，3，7这三个聚为一类；以及裁判1，6，2，4作为一类。

（PS：聚类类别与分析项上的对应关系可以在上表格中得到，同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字，这个需要结合对应有关系情况，自己单独进行命名。）

（3）聚类树状图分析

上图为聚类树状图的展示，聚类树状图是将聚类的具体过程用图示法手法进行展示；最上面一行的数字仅仅是一个刻度单位，代表相对距离大小；一个结点表示一次聚焦过程。

树状图的解读上，建议单独画一条垂直线，然后对应查看分成几个类别，以及每个类别与分析项的对应关系。比如上图中，红色垂直线最终会拆分成3个类别；第1个类别对应裁判8；第2个类别对应裁判5，3，7；第3个类别对应裁判1，6，2，4。

如果是聚为四类；从上图可看出，明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适（上图中的裁判1与6/2/4）；但是如果分成4类，此时裁判1会单独成一类。所以画垂直线无法区分出类别。因而综合分析来看，最终聚类为3个类别最为适合。

当然在分析时也可以考虑分成2个类别，此时只需要对应将垂直线移动即可。

5.其它说明

（1）针对分层聚类，需要注意以下几点：

（2）什么时候做因子分析后再做聚类分析？

如果题项较多，可先做因子分析，得到每个维度（因子）的数据，再进行聚类。

三、总结

聚类分析广泛的应用于自然科学、社会科学等领域。在分析时可以比较多次聚类结果，综合选择更适合的方案。

以上就是聚类分析步骤汇总，更多干货请前往官网查看！

网友评论

本文标题：一文总结聚类分析步骤！

本文链接：https://www.haomeiwen.com/subject/ddgfyrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

一文总结聚类分析步骤！

相关文章