Cox回归模型,又称“比例风险回归模型(proportional hazards model)”,是一种研究相关因素对于生存时间影响的回归模型。
什么是生存时间?
生存时间你可以把它看成是从某一时间点开始到所关注的事件发生的持续时间长度。
它可以是癌症病人从治疗后到病发或死亡的时间;
可以是网站会员从注册到注销账户的时间;
还可以是员工从入职到晋升或离职的时间;
...
根据研究目的的不同,生存时间的定义也会随之改变。
数据要求
Cox回归和其他的常见的回归模型,有一点区别在于,考虑了生存时间。所以在分析时,需要有代表生存时间的变量。同时由于是研究一段时间的生存情况,所以还需要考虑结局是否发生,即需要有代表生存状态的变量。生存状态分别用数字1和0表示,1表示死亡(阳性),0表示生存(阴性)。
为了便于理解,用下面的例子进行说明。
案例应用
某大型超市推出了注册会员领优惠券活动,自活动开始现在抽取了部分用户数据,希望通过Cox回归了解客户流失情况,以及会员优惠券和顾客年龄对客户流失有没有影响关系。
使用路径:SPSSAU→医学研究→Cox回归结果分析
此表主要说明模型是否有意义。P值<0.05,说明模型有效可以进一步分析。如果P值>0.05,则说明模型没有效果,可以删除一些没有影响的因素重新分析。
上表显示的是对每个影响因素的具体分析,是否有影响,有怎样的影响等。
可以看到是否领取优惠券对客户流失有一定的影响(P=0.010<0.01),回归系数为-1.17,说明领取了优惠券的人,留存时间更长。RR值为0.310,意味着相对于没有领取优惠券的人,领取了优惠券的客户流失为0.310倍。说明注册会员领优惠券的活动对降低流失率有一定的作用。
SPSSAU-生存曲线上图即是最终得到的生存曲线,对其加以分析可以看出,在0-20周内客户的流失速度较快,20周以后逐渐趋于平稳,36周-64周之间有出现明显的流失,最终有47%的客户留存下来。
除了对单个曲线进行分析,还可以建立不同的生存曲线进行对比,比如在【分层项】加入‘性别’因素。
不同性别下的生存曲线 不同性别下的生存曲线在这个图表中,我们可以得到更多的信息:男性相对女性整体留存时间更长。超市可以根据这个分析结果,进一步了解女性顾客流失的原因,或是针对女性搞一些促销活动等等来提高留存率。
其他说明
1、Cox回归共有两个因变量(一个是生存时间,另外一个是生存状态)缺一不可。
2、“生存状态”项只能为0和1;1表示死亡,0表示存活;(也或者1表示阳性,0表示阴性;1表示放弃,0表示坚持;诸如此类等等)。
网友评论