美文网首页
多元对应分析

多元对应分析

作者: 秦_Eric | 来源:发表于2019-11-27 14:03 被阅读0次

学习资料

对应分析系列:简单对应分析
张文彤的书《spss统计分析高级教程》和视频,案例是汽车购买,内容相对较少,但案例完整。

郑宗成的书《市场研究中的统计分析方法·专题篇》,在多元对应分析,内容相对多一些,案例也很多,结合案例可以了解如何优化多重对应分析,比如从对象得分两维图中删除异常点。但SPSS版本不同,输出的表、名词翻译等有差异,看起来挺费劲的。

关于多元对应分析的统计原理:最优尺度变换,好像还没看到资料,郑宗成的书提了一段P31,张文彤的书,在典型相关中又多提了一部分P264。

在学习中,尝试了解最优尺度回归、多重对应分析、类别主成分(也有翻译为多维偏好分析,参考《高级教程》P228)、非线性典型相关(多个集合之间的相关性)之间的关联和差异,有利于了解如何应用到实际分析中。
(可以到公众号:回首又见他 获取PDF书籍和数据)

统计原理

最先接触的最优尺度变换(不同版本,翻译不同:最优尺度,最佳尺度,最优标度),源自在回归分析中无法使用分类变量做自变量,原因有下列

有序分类中,类别之间的距离并不是固定值的,比如无法说初学生和高中生之间的距离,和高中生与大学生是一样的。在线性回归分析中,系数是固定的,每提升一个类别,模型测得的效应是固定的,但实际上却不应该是固定的。

另外,无序多分类连高低等级都没有,更无法纳入回归模型。

对此处理的方法有设置哑变量,但如果变量多了有些复杂,所以有了最优尺度回归模型

最优尺度的核心就是:找到合适的尺度来描述各类别。

最优尺度变换专门解决在统计建模时如何对分类变量进行量化的问题,基本思路是希望拟合的模型框架,分析各级别对因变量影响的强弱变化情况,在保证变换后的各变量间联系为线性的前提下,采用一定的非线性变换方法进行反复迭代,从而为原始分类变量的每一个类别找到最佳的量化评分,随后在相应的模型中使用量化评分代替原始变量进行后续分析,这样就可以将各种传统分析方法的范围扩展到全部测度尺度,如对无需多分类变量、有序多分类变量和连续型变量同时进行回归分析、因子分析等。

所以最优尺度变换能和其他结合:最优尺度回归、基于最优尺度变换的主成分分析、多重对应分析、基于最优尺度变换的非线性典型相关分析、基于最优尺度变换的多维尺度分析(MDS)

其中,多重对应分析,最优尺度的主成分分析和非线性典型相关分析在spss中共用一个窗口,通过不同的选择对应不同的分析方法。

降维

案例

汽车用户背景资料的对应分析 《spss统计分析高级教程》P251

数据集:corres.sav提供了某次调查得来的汽车特征与一些用户特征的数据,汽车原产地(origin)、汽车大小(size)、轿车类型(type)、居住情况(home)、收入情况(Income)、性别(sex)、婚姻状态(marit)

操作过程

多重对应分析.gif

结果说明

①迭代记录

显示多少次后停止迭代,没啥信息量。

②模型摘要

  • 维数:=变量中类别总数-变量数,若样本数低于此差值,则最大维数=样本数-1

  • 特征值:=相应惯量值*变量总数

  • 惯量:表示各维度所携带的信息总量。计算方法 不知道

  • 克隆巴赫系数:信度系数

从结果可见,第一维携带了模型所提取的总信息量的0.326/0.561=58.1%,第二维则携带了所提取的总信息量的0.235/0.561=41.9%。但是,由于采用了最优尺度变换,这里无法确切给出总模型一共携带了多少的原始数据信息。此外,表格中还会给出各维度的信度系数。该数值越大,表示该维度上各变量的区分程度越好,该系数最大为1。

③核心图表:多元对应分析图(类别点的联合图)

  1. 同方向的距离较近的同一变量的不同类别具有相似性质。假如,在区分测量总,有两个变量的判别度是相同的。这就不能区分两个变量的情况,可以通过对应分析图中,两个变量,各自类别的分布情况来判定,谁分布的越散,说明谁贡献更大,区分更大。

  2. 同方向的距离较近的不同变量的类别间可能有关联。

根据以上原则,可以在图中得出如下线索

(1)未婚、一份收人、租房子之间有联系

(2)跑车、车型为小型和日本产有联系。

(3)已婚、双份收入有联系,买房子和性别为女性似乎和他们也有点联系。

(4)已婚有孩子、家用车和车型为中型有联系。

④转变后变量的相关系数

⑤对象得分两维图

个案经过计算后的坐标投射。计算方法 不知道 作用:主要作用是查看异常点,如果某些对象点远离其他点,则应该将其删除,然后在重新分析。

⑥区分测量

图:用散点显示出各变量在两个维度上的区分程度。

表:总计值和前面的“模型摘要”的特征值相同。所谓第i维上的判别度(值)就是该变量各维度在第i维上的分散程度,和前面的图对应。

这里需要注意:和简单分析不同,简单分析只有两个变量,所以能看出每个变量上每个类别的贡献值,但多元对应分析,只能看这个变量的值。

在案例中,图中用散点坐标的形式显示出了各变量在二个维度上的区分程度。可见婚姻、收入这两个变量在两个维度上的区分程度都相当好,其余变量有的在第一维度、有的在第二维度上的区分度较好,而性别在两个维度上的区分程度均较差,这些信息对解读对应分析图很有帮助。

其他:

1.异常点:通过对象点来查看是否有远离其他点的个案,然后决定是否删除。

2.哪些变量适用:通过“区分测量图和表”,可以看出哪些变量是没有太多作用的,如果模型效果不佳,可以通过删除这些变量提高模型效果。

3.目标变量:在多元对应分析中,实际业务上基本都有一个目标变量,比如各品牌购买意愿,各产品的适用情况等等,我们加入其他变量(人口统计变量),想了解该目标变量在这些变量下是否有差异。要想很好的达到效果,要求:目标变量的判别度至少在一个维度上较大,即不同类别在图中位置需要尽量分散。(《市场研究中的统计分析方法·专题篇》)

4.某些变量类别的频数很少时,需要合并类别,因为多元对应分析需要做数据标准化处理,频数较小的类别就成了极端值。同时,也可以通过多元对应分析图来确定是否要合并某些类别:但两个类别距离很近的时候,可以选择合并。

5.多元对应分析需要做卡方检验,不同于简单对应分析,多元对应分析输出值中没有卡方值和p值,所以需要事前独立做卡方检验。如何做?每个变量和目标变量做一次卡方检验。然后筛选出无关的变量,不参与建模。

6.以上的多元对应分析要求源数据都是单选题。原因很简单,多元对应分析需要对数据最优尺度变换,这个前提是要求数据维有序数据,而问卷中的单选题基本上都是有序数据,比如年龄,收入,教育。关于多选题和单选题数据如何使用多元对应分析(类似简单对应分析),参考《问卷分析利器:多元对应分析》文章最后部分(微信公众号:用盐有点咸)。

相关文章

网友评论

      本文标题:多元对应分析

      本文链接:https://www.haomeiwen.com/subject/amspwctx.html