![](https://img.haomeiwen.com/i7691822/015caa9fa84b5896.png)
1、背景介绍
Cox回归是一种用于生存分析的统计模型,最早由英国统计学家David Cox 命名,主要用于探究某些因素对于事件发生时间的影响程度。Cox模型是一种半参数模型,即只对协变量和风险函数(描述因子对生存时间的影响)作出了特定的分布假设,而对基础分布假设没有作出限制。
Cox回归分析面对的问题是:“目标事件”(如死亡或疾病再发、复发等)在某些“危险因素”的影响下,何时发生。
在生存分析中,探究“生存曲线”的斜率和它变化的原因是非常重要的,而Cox回归提供了一种可靠的方法来揭示相关因素对于生存时间的影响。通常,我们使用Cox回归来比较在不同条件下(如药物治疗的应用,疾病的严重程度等)的生存曲线,以此来推断不同因素对于生存时间的影响程度。
2、Cox 比例风险回归模型
2.1 数据集
![](https://img.haomeiwen.com/i7691822/30b8184b151e52ae.png)
其中T代表min(T, C),其中T为死亡时间,C为观测截止时间。E代表是否观察到“死亡”,1代表观测到了,0代表未观测到,即生存分析中的“删失”数据,删失数据共11个。
var1,var2,var3代表了我们关系的变量,可以是是否为实验组的虚拟变量,可以是一个用户的渠道路径,也可以是用户自身的属性
2.2 比例风险Cox回归
from lifelines.datasets import load_regression_dataset
from lifelines import CoxPHFitter
regression_dataset = load_regression_dataset()
print(regression_dataset.head())
print(regression_dataset['E'].value_counts())
cph = CoxPHFitter()
cph.fit(regression_dataset, 'T', event_col='E')
cph.print_summary()
cph.plot()
![](https://img.haomeiwen.com/i7691822/4ebc3d18f25184d3.png)
结果分析:从结果来看,我们认为var1和var3在5%的显著性水平下是显著的。认为var1水平越高,用户的风险函数值越大,即存活时间越短(cox回归是对风险函数建模,这与死亡加速模型刚好相反,死亡加速模型是对存活时间建模,两个模型的参数符号相反)。同理,var3水平越高,用户的风险函数值越大。
这里还可以画出每个参数的风险水平coef值:
![](https://img.haomeiwen.com/i7691822/ed49a653da4bb555.png)
网友评论