当Y只有两个选项时,可以使用二分类Logistics,当Y有三项或更多时,则应该使用多分类Logistics回归,比如是否愿意购买,是否愿意推荐,出行方式偏好,总统候选人选择偏好等。
SPSSAU整理
参照项设置
Logistic回归时,因变量Y值为定类数据,因而需要有对照参考项。如果是二元Logistic回归,默认以数字0作为参考项(通常用数字0表示不愿意,不喜欢,不会等)
如果是多分类logistic回归,SPSSAU默认以数字最小的一项作为参考项。如果想更换参考项,可在【数据处理->数据编码】里进行设置,把参考项的数值设为最小的数值即可。如下图所示,原本以1作为参考项,现在将3作为参考项,将3改为0即可,当然设置其它更小值比如-1也可以。
案例应用
(1)背景
在2016年美国总统选举时,共有三名候选人,分别是特朗普、希拉里、卢比奥。有一市场研究公司想预测最终谁会胜出,因此收集到共1847名民众信息,包括选择偏好,性别,年龄,学历等信息进行研究,研究性别,年龄和学历对于总统候选人选择的影响情况,最终做出科学预测。
(2)操作步骤
性别、年龄、学历为自变量,总统候选人为因变量,由于Y为定类数据且无序,选择多分类Logistic回归进行分析。
使用路径:进阶方法→多分类logit性别为定类数据,分析前需要先进行哑变量处理。学历这里看作是定量数据,因此直接纳入模型不作处理。最终分析放置如下:
SPSSAU-多分类logit分析界面如果提示“Y的选项过少或过多”?
这意味着因变量Y的选项不符合多分类logistic回归分析要求,通常情况下因变量Y的分类个数应该介于3~8个之间。如果出现该提示,可使用频数分析查看Y选项的个数。如果选项个数过多,则需要进行合并处理等(【数据处理→数据编码】里设置)。
(3)结果分析
SPSSAU共输出三个结果表格,分别是基本信息汇总表、似然比检验表、多分类Logit回归分析结果。
表1 多分类Logistic回归分析基本信息表表1为基本信息汇总表,用来汇总数据信息,查看Y值分布情况以及是否有缺失数据。如果缺失数据过多,或者Y值分布非常不均匀,可能会导致模型质量较差。如果Y值选项过多且分布不均需要对选项进行合并处理。
从上表可以看出,总共有1847个样本参加分析,并且没有缺失数据。选择特郞普的比例是35.79%,希拉里的选择比例是15.05%,卢比奥的比例最高为49.16%。
表2 似然比检验表2为模型似然比检验结果,用于分析模型整体有效性。此处模型检验的原定假设为:是否放入自变量(年龄, 学历, 性别_男)两种情况时模型质量均一样;这里P值小于0.05,因而说明拒绝原定假设,即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。AIC和BIC值用于多次分析时的对比;两个值越低越好;如果多次进行分析,可对比此两个值的变化情况,说明模型构建的优化过程。
模型检验的原定假设为:是否放入自变量(性别(男), 年龄, 学历)时模型质量均一样;这里P值小于0.05(x2=91.573,p=0.00),因而说明拒绝原定假设,即说明本次构建模型有意义。
表3 多分类Logistic回归分析结果汇总表表3为多分类回归分析结果汇总表,用于分析模型整体情况,以及每个X对Y的影响情况(显著性、影响程度等)。
在医学研究中,很可能会对OR值进行分析,其意义在于X增加1个单位时,Y的变化幅度情况。如果仅研究影响关系,则OR值的意义相对较小;
提供McFadden R方值,其代表X对于Y的解释力度,比如上例中为0.025,即说明性别,年龄和学历共三个X可以解释总统候选人选择偏好2.5%的原因。通常情况下,此值使用较少。
分析步骤:
首先,对模型整体情况进行说明,比如对R方值进行描述,以及列出模型公式;
然后,逐一分析X对于Y(相对于的对比项)影响情况;如果X对应的P值小于0.05则说明X会对Y(相对于的对比项)产生影响关系,此时可结合OR值进一步分析影响幅度。
最后,总结分析结果。
总结分析:
从上表可知,模型伪R平方值( McFadden R平方)为0.025,意味着年龄, 学历, 性别_男可以解释总统候选人的2.45%变化原因。
本例以特朗普作为参照项进行对比分析,Y一共有3项,因而最终会有2个公式,最终模型公式如下:
ln(希拉里/特朗普)=0.081-0.437*年龄-0.065*学历 + 0.309*性别_男
ln(卢比奥/特朗普)=0.312 + 0.076*年龄-0.002*学历-0.436*性别_男
在特朗普和希拉里之间进行选择时,选民的性别和年龄对选择偏好的影响有统计学意义。(P>0.05)。年龄的回归系数值为-0.437,OR值为0.646,意味着年龄会对总统候选人产生显著的负向影响关系,说明年龄大的选民倾向选择特朗普。
分析性别对选择偏好的影响,以女性为参考项,回归系数为0.309,OR值为1.362,说明相对于女性,男性群体更加愿意选择希拉里。
在特朗普和卢比奥之间进行选择时,只有性别的影响有统计学意义(P>0.05)。性别_男的回归系数值为-0.436,OR值为0.647,意味着相比于女性,男性在选择时更愿意选择特朗普。
其他说明
如果模型预测准确率较低,需要多次进行分析对比(使用AIC和BIC值),找出最优的模型结果。
SPSSAU默认将Y的最小数字作为对照项,如需修改可使用【数据处理->数据编码】功能进行设置。
登录SPSSAU官网体验在线数据分析
网友评论