SPSSAU教程15：聚类样本研究分析思路

作者: spssau | 来源:发表于2019-06-20 11:58 被阅读13次

SPSSAU教程15：聚类样本研究分析思路
SPSSAU教程11：调节中介类研究分析思路
干货合集-聚类分析
fisher卡方案例解读
聚类分析思路分享，如何完成用户细分？
Python建模复习：描述性数据挖掘
SPSSAU教程13：类实验性研究问卷分析思路
SPSSAU教程06：聚类权重分析指标解读
SPSSAU教程10：量表类影响问卷分析思路
SPSSAU数据分析-分层聚类

聚类，顾名思义，就是将原本无规律的数据，通过比较数据之间的相似性，找出它们的联系，将差别小的数据分为一类，保证不同类别之间的差别较大。聚类研究一般是对研究的样本人群进行分析，把人群划分为不同类别，再对不同类别人群的差异进行分析。

聚类分析与因子分析

分析时很多人容易把聚类和因子分析的概念弄混，其实两者既有联系也有区别。

（1）区别：

因子分析：分为探索性因子分析和验证性因子分析，多用来分析问卷效度、浓缩信息、计算权重或者分析综合竞争力。比如将20个题浓缩为5个关键词。

聚类分析：分为样本聚类和变量聚类，通常比较常用样本聚类，比如有500个人，这500个人可以聚成几个类别。

（2）联系：

在研究中，可以先做因子分析浓缩题项信息，也就是把多个题浓缩成几个变量，得到因子得分。然后将因子得分进一步聚类分析，得到几个类别群体，可用于后续的研究。

思路框架

具体分析步骤：

1. 样本背景分析

首先对研究数据样本基本特征情况（比如性别、年龄、学历等）进行分析

2. 样本特征、行为分析

如果有涉及样本群体的特征、行为、或者态度相关项，则可单独一部分进行分析

3. 指标归类分析

如果研究量表数据并不知道分成几个维度，比如有20个量表题，应该分成几个维度并不确定，此时可使用因子分析方法进行。找出应该分成几个维度（因子），以及题项和维度的对应关系情况。

4. 信度和效度分析

接着对量表项进行信度和效度分析（备注：因子分析已经得出维度与题项对应关系，此时说明已经有效度，有时也可放弃效度分析，从内容完整性上建议放入)

5. 聚类分析

完成因子分析后，已经确认得到几个维度，可将此几个维度进行聚类，得到几种类别的群体，然后结合每类群体的特征，给每个聚类类别进行命名。（备注：一个维度由多个题项表示，想将多个题项概括成一个整体，此时需要使用SPSSAU中“生成变量”的“平均值”功能即可）

6. 聚类效果验证

严格意义上的聚类分析并非统计检验分析方法，而是一种数据描述性方法。从应用角度看，研究人员可以使用以下几种方法综合判断聚类效果。

第一，看聚类后的类别是否可以有效命名，且是否符合现实意义。

第二，判断分析方法进行判断，将软件生成的聚类类别变量作为因变量（Y），将聚类变量作为自变量（X），判别分析聚类变量与类别之间投影关系情况。

第三，文字说明聚类分析方法的详细过程及科学性。

第四，要看聚类分析后每个类别样本量是否均匀，如果聚类结果显示为三个类别，其中一个类别样本量非常少，说明聚类效果可能较差。

7. 得到聚类类别之后，接着需要对比不同类别群体的差异性；包括比如在“特征”、“行为”或者“态度”上的差异性。便于结合不同群体提供不同的建议措施等。如果是研究聚类样本的个体背景特点差异，聚类类别和样本背景题项(性别、年龄、学历等)均为分类数据，因而应该使用卡方分析进行对比差异，进一步了解不同细分类别人群在个体背景上的差异情况，便于对类别样本进行深入分析。

研究者还可以对比不同类别样本与问卷中其余题项的差异情况，如果题项为定量数据则需要使用方差分析，如果题项为分类数据则使用卡方分析，如果题项为多选题，也应该使用卡方分析

此类问卷思路的核心特点在于“分类”，即对样本人群细分。在此基础之上，才会有后面的关于不同类别人群的差异分析。