多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。
案例
假设有这样的一些消费者样本,数据量比较庞大,共计24931份数据,我们欲探究不同性别、不同年龄及不同教育程度对个体每月的消费水平是否会有影响?
数据(部分)
三因素对消费水平的影响做这样的假设:
H01:性别对消费水平无影响;
H11:性别对消费水平有影响;
H02:年龄对消费水平无影响;
H12:年龄对消费水平有影响;
H03:教育程度高低对消费水平无影响;
H13:教育程度高度对消费水平有影响;
H04:性别、年龄及教育程度的交互效应对消费水平无影响;
H14:性别、年龄及教育程度的交互效应对消费水平有影响;
执行:analyze/general linear model/univariate命令;得到下图的分析结果:
数据分析
多因素分析结果从图中可以看出,性别对每月的购物消费水平是有显著影响的,其中,F=9.72,P=0.002; 年龄段对每月的购物消费水平也是有显著影响的,其中,F=19.84,P=0.000; 教育程度对每月的购物消费水平也是有显著影响的,其中,F=5.41,P=0.001;同时,我们还可以分析出上述三个因素对每月的购物消费水平是有显著交互影响的,因此,拒绝原假设,接受对立假设。其中,F=1.67,P=0.017; 但是,问题来了
我们是否有考虑过:具体是男性还是女性,到底在什么年龄段,有着怎样的教育程度对这个结果产生了显著的影响?
我们可以做一下的处理:对数据进行标准化处理,性别不用处理,总共两类数据,可以将受教育程度和年龄也分为两类,高于平均值的置为2,低于平均值的置为1,如此也就得到了新的数据列。
上述新数据置换,需要执行数据转换:transform/recode into different variables,将新的数据进行处理。
然后进行条形图+误差区间图,进行构图。结果如下所示:
交互效应图由图可知:有显著差异的是在受教育程度数值为2的区间,也就是原始数据为3或者4的,主要人群是大学本科、硕士及以上;这一阶段中,新年龄为2的要显著高于年龄为1的,也就是原始数据中年龄在30岁以上的消费显著高于30岁以下的。其中,女性要显著高于男性。
综上,可以说,在30岁以上的女性人群中,拥有大学本科及以上学历人群的消费水平是显著高于其他人群的。
这下,至少让我觉得嫁得好不如学得好,自己有钱自己花,何乐而不为!(这是玩笑了,大还是好好学习,天天向上)
本学习内容数据来自于熊一炎老师,数据分析是在叨扰熊老师一晚上完成的。特别鸣谢。
网友评论