数据分析之聚类分析

作者: 黄成甲 | 来源:发表于2018-09-11 14:47 被阅读23次

手把手教你用SPSSAU做聚类分析
利用聚类算法研究大数据微信公众号实例
深入推荐引擎相关算法 - 聚类
数据分析之聚类分析
数据挖掘之聚类分析
K-Means聚类算法
2019-03-07
数据挖掘算法（一）
数据分析思路
数据分析模型之聚类分析

RFM分析只能对客户的行为进行分析，包含的信息量有点少。一般来说，对人群进行分类，要综合考虑其行为、态度、模式以及相关背景属性，通过使用特定的方法，发现隐藏在这些信息背后的特征，将其分成几个类别，每一类具有一定的共性，进而做出进一步的探索研究。这个分类的过程就是聚类分析。

文/黄成甲

聚类分析

聚类分析，就是按照个体的特征将它们分类，目的在于让同一个类别内的个体之间具有较高的相似度，而不同类别之间具有较大的差异性。这样，就能够根据不同类别的特征有的放矢地进行分析，并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类，但是更常见的还是对个体进行聚类，也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类，聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类，需要采用适当的指标来衡量研究对象之间的联系紧密程度，常用的指标有“距离”和“相似系数”，相似系数一般指的是相关系数。假设将研究对象采用点表示，聚类分析时，将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点：

1.对于聚类结果是未知的，不同的聚类分析方法可能得到不同的分类结果，或者相同的聚类分析方法但是所分析的变量不同，也会得到不同的聚类结果；

2.对于聚类结果的合理性判断比较主观，只要类别内相似性和类别间差异性都能得到合理的解释和判断，就认为聚类结果是可行的。

聚类分析可以应用于以下场景：

聚类分析应用场景

聚类分析的步骤：

（1）确定需要参与聚类分析的变量；

（2）对数据进行标准化处理；

因为各个变量间的变量值的数量级别差异较大或者单位不一致，例如一个变量的单位是元，另一个变量的单位是百分比，数量级别差异较大，而且单位也不一致，无法直接进行比较或者计算“距离”和“相似系数”等指标。

（3）选择聚类方法和类别个数；

（4）聚类分析结果解读；

常用的聚类方法包括：

1.快速聚类：也称K均值聚类，它是按照一定的方法选取一批聚类中心点，让个案向最近的聚类中心点聚集形成初始分类，然后按照最近距离原则调整不合理的分类，直到分类合理为止。

2.系统聚类：也称层次聚类，首先将参与聚类的个案（或变量）各视为一类，然后根据两个类别之间的聚类或者相似性逐步合并，直到所有个案（或变量）合并为一个大类为止。实际上，系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后，要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类：也称两步聚类，它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤，第一个步骤是预聚类，就是根据定义的最大类别数对个案进行初步归类；第二个步骤是正式聚类，就是对第一步得到的初步归类进行再聚类并确定最终聚类结果，并且在这一步中，会根据一定的统计标准确定聚类的类别数。

系统聚类与快速聚类区别

（1）系统聚类分析不仅支持输入单个分类数量，还支持输入分类数量的范围。这对于暂时无法确定类别数，或者想进行多类别数的结果比较时，非常方便。

（2）系统聚类分析支持生成聚类结果图，从而更加直观地查看聚类过程。系统聚类分析支持两种图形：

谱系图（树状图）：它以树状的形式展现个案被分类的过程；

冰柱图：它以“X”的形式显示全部类别或指定类别数的分类过程。

（3）系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中，测量方法（度量标准）：

（i）区间：适用于连续变量，虽然SPSS提供了8种测量方法，但是通常选用默认的【平方欧式距离】即可。

（ii）计数：适用于连续或分类变量，SPSS提供了2种测量方法，通常选用【卡式测量】即可。

（iii）二元：适用于0/1分类变量，SPSS提供多达27种测量方法，通常选用【平方欧式距离】即可。

聚类分析的数据标准化

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量，所以，【测量】应选择【区间】项，方法为默认的【平方欧式距离】，标准化可以选择【Z得分】，选择按【变量项】，用以每个变量单独进行标准化。

二阶聚类分析

二阶聚类分析能够对连续变量和分类变量同时进行处理，无需提前指定聚类的数目，二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则（BIC）帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小，同时，“BIC变化量”的绝对值和“距离测量比率”数值越大，则说明聚类效果越好。