数据分析之聚类分析

作者: 黄成甲 | 来源:发表于2018-09-11 14:47 被阅读23次

RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及相关背景属性,通过使用特定的方法,发现隐藏在这些信息背后的特征,将其分成几个类别,每一类具有一定的共性,进而做出进一步的探索研究。这个分类的过程就是聚类分析。

文/黄成甲

聚类分析

聚类分析,就是按照个体的特征将它们分类,目的在于让同一个类别内的个体之间具有较高的相似度,而不同类别之间具有较大的差异性。这样,就能够根据不同类别的特征有的放矢地进行分析,并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类,但是更常见的还是对个体进行聚类,也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类,聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类,需要采用适当的指标来衡量研究对象之间的联系紧密程度,常用的指标有“距离”和“相似系数”,相似系数一般指的是相关系数。假设将研究对象采用点表示,聚类分析时,将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点:

1.对于聚类结果是未知的,不同的聚类分析方法可能得到不同的分类结果,或者相同的聚类分析方法但是所分析的变量不同,也会得到不同的聚类结果;

2.对于聚类结果的合理性判断比较主观,只要类别内相似性和类别间差异性都能得到合理的解释和判断,就认为聚类结果是可行的。

聚类分析可以应用于以下场景:

聚类分析应用场景

聚类分析的步骤:

(1)确定需要参与聚类分析的变量;

(2)对数据进行标准化处理;

因为各个变量间的变量值的数量级别差异较大或者单位不一致,例如一个变量的单位是元,另一个变量的单位是百分比,数量级别差异较大,而且单位也不一致,无法直接进行比较或者计算“距离”和“相似系数”等指标。

(3)选择聚类方法和类别个数;

(4)聚类分析结果解读;

常用的聚类方法包括:

1.快速聚类:也称K均值聚类,它是按照一定的方法选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。

2.系统聚类:也称层次聚类,首先将参与聚类的个案(或变量)各视为一类,然后根据两个类别之间的聚类或者相似性逐步合并,直到所有个案(或变量)合并为一个大类为止。实际上,系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后,要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类:也称两步聚类,它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤,第一个步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;第二个步骤是正式聚类,就是对第一步得到的初步归类进行再聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。

系统聚类与快速聚类区别

(1)系统聚类分析不仅支持输入单个分类数量,还支持输入分类数量的范围。这对于暂时无法确定类别数,或者想进行多类别数的结果比较时,非常方便。

(2)系统聚类分析支持生成聚类结果图,从而更加直观地查看聚类过程。系统聚类分析支持两种图形:

谱系图(树状图):它以树状的形式展现个案被分类的过程;

冰柱图:它以“X”的形式显示全部类别或指定类别数的分类过程。

(3)系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中,测量方法(度量标准):

(i)区间:适用于连续变量,虽然SPSS提供了8种测量方法,但是通常选用默认的【平方欧式距离】即可。

(ii)计数:适用于连续或分类变量,SPSS提供了2种测量方法,通常选用【卡式测量】即可。

(iii)二元:适用于0/1分类变量,SPSS提供多达27种测量方法,通常选用【平方欧式距离】即可。

聚类分析的数据标准化

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量,所以,【测量】应选择【区间】项,方法为默认的【平方欧式距离】,标准化可以选择【Z得分】,选择按【变量项】,用以每个变量单独进行标准化。

二阶聚类分析

二阶聚类分析能够对连续变量和分类变量同时进行处理,无需提前指定聚类的数目,二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则(BIC)帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小,同时,“BIC变化量”的绝对值和“距离测量比率”数值越大,则说明聚类效果越好。

聚类方法的对比

聚类分析属于探索性数据分析方法,它没有一个所谓的标准流程和答案,不同的数据有不同的适用方法,即使相同的数据,应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

聚类方法对比

相关文章

  • 手把手教你用SPSSAU做聚类分析

    聚类分析:聚类分析是通过数据建模简化数据的一种方法。“物以类聚,人以群分”正是对聚类分析最好的诠释。本文就具体介绍...

  • 利用聚类算法研究大数据微信公众号实例

    聚类分析可以用在APP及网站数据分析、用户画像分析上。 1.什么是聚类分析 聚类分析就是把看得见的实体对象(如桌子...

  • 深入推荐引擎相关算法 - 聚类

    聚类分析 什么是聚类分析? 聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)...

  • 数据分析之聚类分析

    RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及...

  • 数据挖掘之聚类分析

    聚类分析是什么 相对于分类,聚类是一种不清楚类别的种类,或类别不清楚的情况下,通过计算数据之间的相似度(其中用得最...

  • K-Means聚类算法

    一、概述 1、什么是聚类分析聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别...

  • 2019-03-07

    聚类分析 单击→聚类分析 (欢迎关注微信公众号:spss学习乐园) 聚类分析 聚类分析:研究如何将样品或变量进行分...

  • 数据挖掘算法(一)

    数据挖掘,根据我的学习,包括数据预处理、数据模式分析、数据分类、数据聚类分析、离群值分析等。 前言 其实我们在中学...

  • 数据分析思路

    1 概述2 数据分析框架3 数据分析方法3.1 数据理解 & 数据准备3.2 分类与回归3.3 聚类分析3.4 关...

  • 数据分析模型之聚类分析

    一、定义 将大量的数据集中后作为样品,从中必然存在一定的相似数据或者规律,基于这个假设将数据分离出来并且发现不同类...

网友评论

  • yemoumou:俱往矣,数风流人物,还看今朝。-简书朋友你好,我是币圈一老友,我的写作方向是区块链和数字货币,初到简书,望多多关照。互粉互赞,已赞,期待您的回赞哦。-

本文标题:数据分析之聚类分析

本文链接:https://www.haomeiwen.com/subject/yozsgftx.html