美文网首页
用Python做生存分析--lifelines库简介

用Python做生存分析--lifelines库简介

作者: 5cb608806559 | 来源:发表于2020-09-15 23:28 被阅读0次

    Python提供了一个简单而强大的生存分析包——lifelines,可以非常方便的进行应用。这篇文章将为大家简单介绍这个包的安装和使用。

    安装

    lifelines支持用pip的方法进行安装,您可以使用以下命令进行一键安装:

    pip install lifelines

    使用简介

    在python中,可以利用lifelines进行累计生存曲线的绘制、Log Rank test、Cox回归等。下面以lifelines包中自带的测试数据进行一个简单的示例。

    一、绘制S(t)

    首先加载和使用自带的数据集:

    from lifelines.datasets import load_waltons
    from lifelines import KaplanMeierFitter
    from lifelines.utils import median_survival_times
     
    df = load_waltons()
    print(df.head(),'\n')
    print(df['T'].min(), df['T'].max(),'\n')
    print(df['E'].value_counts(),'\n')
    print(df['group'].value_counts(),'\n')
    

    运行一下将会看到以下结果,


    运行结果

    数据有三列,其中T代表min(T, C),其中T为死亡时间,C为观测截止时间。E代表是否观到“死亡”,1代表观测到了,0代表未观测到,即生存分析中的删失数据,共7个。 group代表是否存在病毒, miR-137代表存在病毒,control代表为不存在即对照组,根据统计,存在miR-137病毒人数34人,不存在129人。

    利用此数据取拟合拟生存分析中的Kaplan Meier模型(专用于估计生存函数的模型),并绘制全体人群的生存曲线。

    kmf = KaplanMeierFitter()
    kmf.fit(df['T'], event_observed=df['E']) 
    kmf.plot_survival_function()
    median_ = kmf.median_survival_time_
    median_confidence_interval_ = median_survival_times(kmf.confidence_interval_)
    print(median_confidence_interval_)
    
    运行结果

    图中蓝色实线为生存曲线,浅蓝色带代表了95%置信区间。随着时间增加,存活概率S(t)越来越小,这是一定的,同时S(t)=0.5时,t的95%置信区间为[53, 58]。这并不是我们关注的重点,我们真正要关注的实验组(存在病毒)和对照组(未存在病毒)的生存曲线差异。因此我们要按照group等于“miR-137”和“control”分组,分别观察对应的生存曲线:

    groups = df['group']
    ix = (groups == 'miR-137')
     
    kmf.fit(df['T'][ix], df['E'][ix], label='miR-137')
    ax = kmf.plot()
    treatment_median_confidence_interval_ = median_survival_times(kmf.confidence_interval_)
    print("带有miR-137病毒存活50%对应的存活时间95%置信区间:'\n'", treatment_median_confidence_interval_, '\n')
     
    kmf.fit(df['T'][~ix], df['E'][~ix], label='control')
    #共享一个画布
    ax = kmf.plot(ax=ax)
     
    control_median_confidence_interval_ = median_survival_times(kmf.confidence_interval_)
    print("未带有miR-137病毒存活50%对应的存活时间95%置信区间:'\n'", control_median_confidence_interval_)
    
    运行结果

    可以看到,带有miR-137病毒的生存曲线在control组下方。说明其平均存活时间明显小于control组。同时带有miR-137病毒存活50%对应的存活时间95%置信区间为[19,29],对应的control组为[56,60]。差异较大,这个方法可以应用在分析用户流失等场景,比如我们对一组人群实行了一些防止流行活动,我们可以通过此种方式分析我们活动是否有效。

    二、cox回归

    该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。

    对于回归模型的假设检验通常采用似然比检验、Wald检验和记分检验,其检验统计量均服从卡方分布。,其自由度为模型中待检验的自变量个数。一般说来,Cox回归系数的估计和模型的假设检验计算量较大,通常需利用计算机来完成相应的计算

    通常存活时间与多种因素都存在关联,因此我们的面临的数据是多维的。下面使用一个更复杂的数据集。首先仍然是导入和使用示例数据。

    from lifelines.datasets import load_regression_dataset
    from lifelines import CoxPHFitter
     
    regression_dataset = load_regression_dataset()
     
    print(regression_dataset.head())
    print(regression_dataset['E'].value_counts())
    
    运行结果

    [图片上传中...(24515569-a5987d05b5e05a26.png-4ed038-1600008755271-0)]

    其中T代表min(T, C),其中T为死亡时间,C为观测截止时间。E代表是否观察到“死亡”,1代表观测到了,0代表未观测到,即生存分析中的“删失”数据,删失数据共11个。var1,var2,var3代表了我们关系的变量,可以是是否为实验组的虚拟变量,可以是一个用户的渠道路径,也可以是用户自身的属性。
    我们利用此数据进行Cox回归

    cph = CoxPHFitter()
    cph.fit(regression_dataset, 'T', event_col='E')
    cph.print_summary()
    
    运行结果

    从结果来看,我们认为var1和var3在5%的显著性水平下是显著的。认为var1水平越高,用户的风险函数值越大,即存活时间越短(cox回归是对风险函数建模,这与死亡加速模型刚好相反,死亡加速模型是对存活时间建模,两个模型的参数符号相反)。同理,var3水平越高,用户的风险函数值越大。

    文档与更多资料

    英文文档:https://lifelines.readthedocs.io/en/latest/index.html
    中文文档:https://www.cnpython.com/pypi/lifelines
    应用案例:https://www.pianshen.com/article/6276265616/
    应用案例:https://zhuanlan.zhihu.com/p/56230746

    相关文章

      网友评论

          本文标题:用Python做生存分析--lifelines库简介

          本文链接:https://www.haomeiwen.com/subject/zzgoektx.html