美文网首页SPSSAU数据分析入门教学
SPSSAU教程15:聚类样本研究分析思路

SPSSAU教程15:聚类样本研究分析思路

作者: spssau | 来源:发表于2019-06-20 11:58 被阅读13次

    聚类,顾名思义,就是将原本无规律的数据,通过比较数据之间的相似性,找出它们的联系,将差别小的数据分为一类,保证不同类别之间的差别较大。聚类研究一般是对研究的样本人群进行分析,把人群划分为不同类别,再对不同类别人群的差异进行分析。

    聚类分析与因子分析

    分析时很多人容易把聚类和因子分析的概念弄混,其实两者既有联系也有区别。

    (1)区别:

    因子分析:分为探索性因子分析和验证性因子分析,多用来分析问卷效度、浓缩信息、计算权重或者分析综合竞争力。比如将20个题浓缩为5个关键词。

    聚类分析:分为样本聚类和变量聚类,通常比较常用样本聚类,比如有500个人,这500个人可以聚成几个类别。

    (2)联系:

    在研究中,可以先做因子分析浓缩题项信息,也就是把多个题浓缩成几个变量,得到因子得分。然后将因子得分进一步聚类分析,得到几个类别群体,可用于后续的研究。

    思路框架

    具体分析步骤:

    1.  样本背景分析

    首先对研究数据样本基本特征情况(比如性别、年龄、学历等)进行分析

    2.  样本特征、行为分析

    如果有涉及样本群体的特征、行为、或者态度相关项,则可单独一部分进行分析

    3.  指标归类分析

    如果研究量表数据并不知道分成几个维度,比如有20个量表题,应该分成几个维度并不确定,此时可使用因子分析方法进行。找出应该分成几个维度(因子),以及题项和维度的对应关系情况。

    4.  信度和效度分析

    接着对量表项进行信度和效度分析(备注:因子分析已经得出维度与题项对应关系,此时说明已经有效度,有时也可放弃效度分析,从内容完整性上建议放入)

    5.  聚类分析

    完成因子分析后,已经确认得到几个维度,可将此几个维度进行聚类,得到几种类别的群体,然后结合每类群体的特征,给每个聚类类别进行命名。(备注:一个维度由多个题项表示,想将多个题项概括成一个整体,此时需要使用SPSSAU中“生成变量”的“平均值”功能即可)

    6.  聚类效果验证

    严格意义上的聚类分析并非统计检验分析方法,而是一种数据描述性方法。从应用角度看,研究人员可以使用以下几种方法综合判断聚类效果。

        第一,看聚类后的类别是否可以有效命名,且是否符合现实意义。

        第二,判断分析方法进行判断,将软件生成的聚类类别变量作为因变量(Y),将聚类变量作为自变量(X),判别分析聚类变量与类别之间投影关系情况。

        第三,文字说明聚类分析方法的详细过程及科学性。

        第四,要看聚类分析后每个类别样本量是否均匀,如果聚类结果显示为三个类别,其中一个类别样本量非常少,说明聚类效果可能较差。

    7.  得到聚类类别之后,接着需要对比不同类别群体的差异性;包括比如在“特征”、“行为”或者“态度”上的差异性。便于结合不同群体提供不同的建议措施等。如果是研究聚类样本的个体背景特点差异,聚类类别和样本背景题项(性别、年龄、学历等)均为分类数据,因而应该使用卡方分析进行对比差异,进一步了解不同细分类别人群在个体背景上的差异情况,便于对类别样本进行深入分析。

    研究者还可以对比不同类别样本与问卷中其余题项的差异情况,如果题项为定量数据则需要使用方差分析,如果题项为分类数据则使用卡方分析,如果题项为多选题,也应该使用卡方分析

    此类问卷思路的核心特点在于“分类”,即对样本人群细分。在此基础之上,才会有后面的关于不同类别人群的差异分析。

    聚类分析说明

    上部分已经对整体框架进行说明,这部分主要对聚类的分析步骤进行进一步说明。其他分析步骤的说明在之前的文章都有介绍,这里就不再重复。

    聚类分析常见的方法有:两部聚类、K-均值聚类、系统聚类。

    两步聚类可以同时处理定类数据和定量数据,并且可以系统自动寻找最有聚类类别数量。使用与数量大且结构复杂的分析。

    K-均值聚类,又叫快速聚类,可以快速处理大量数据,速度快并且处理大量数据是K-均值聚类的优点,但其仅针对定量数据而不能处理分类数据,并且需要主观设定聚类类别个数,不能自动寻找最优聚类类别数量。

    使用路径:SPSSAU→【进阶方法】→【聚类】

    系统聚类,又叫分层聚类,基本思路是将多个样本各作为一类,计算样本两两之间的距离,合并距离最近的两类成新的一类,然后再计算距离,再合并,直到只有一类为止。

    使用路径:SPSSAU→【进阶方法】→【分层聚类】


    聚类分析步骤

    第一步:数据处理

    如果样本数据度量单位不统一,比如有的题项是以七级量表,而有的题项为五级题项。此时应该进行数据处理,即数据标准化处理。常见是进行Z值法标准化。

    第二步:进行聚类分析

    如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类分析”功能,其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法;如果是按变量(标题)聚类,则使用分层聚类,并且结合聚类树状图进行综合判定分析。

    第三步:聚类效果验证

    聚类效果不同于其它分析方法,其它分析方法可以通过P值进行检验。聚类效果需要通过研究经验,并且结合专业知识进行综合判断。良好的聚类分析结果可以有效的识别样本特征,因而聚类出的不同类别样本,应该有着完全差异性特征。

    针对聚类样本的特征差异对比,通常是使用方差分析进行对比,如果聚类变量为分类数据,应该使用卡方分析进行对比。如果可以进行有效命名,则说明聚类效果较好,反之则说明聚类分析结果较差,应该返回第二步重新选择聚类类别数量,找出更优聚类结果。

    第四步:聚类类别命名

    完成第三步聚类效果判断后,已经确认聚类类别数量情况,以及每个类别命名情况。此步骤更为深入分析各个类别的特点,尤其针对于某类别样本在某聚类变量上的突出特点,最终对聚类类别进行命名,结束聚类分析。

    更多分析方法的使用说明可到SPSSAU官网查看。

    相关文章

      网友评论

        本文标题:SPSSAU教程15:聚类样本研究分析思路

        本文链接:https://www.haomeiwen.com/subject/xjjdqctx.html