本文首发于“生信大碗”公众号,转载请注明出处
在医学研究中,我们经常需要分析某一因素对患者生存期的影响并绘制生存曲线,即进行生存分析。今天就给大家介绍一种非常适合生信小白的零代码生存分析的方法。
Kaplan-Meier Plotter(http://kmplot.com/analysis/index.php?p=background)是常用的进行生存分析的网站,其数据来源于GEO、EGA、TCGA数据库,能够评估来自21种肿瘤的30000多个样本中所有基因的表达与患者生存率之间的相关性,从而发现和验证与生存相关的生物标志物。
下面就以探究基因TP53的表达与肝癌患者生存率的关系为例演示如何使用Kaplan-Meier Plotter进行生存分析。
1、打开Kaplan-Meier Plotter网站http://kmplot.com/analysis/index.php?p=background
下拉(图1):
图1 Kaplan-Meier Plotter主页TP53是编码基因,因此我们应该选择mRNA。可以发现第一行是基于mRNA的基因芯片数据进行生存分析,但只有乳腺癌、卵巢癌、肺癌和胃癌可选;第二行是基于mRNA的RNA测序数据进行生存分析,其中乳腺癌和肝癌还可以自定义设置一些筛选患者的条件,比如乳腺癌患者中ER、PGR、HER2的表达情况、肝癌患者肝炎病毒感染情况等,故有独立的模块可供选择,其余的各种肿瘤则包含在“pan-cancer”模块中。本例我们研究的肿瘤是肝癌,因此选择“liver cancer”模块。除此之外,Kaplan-Meier Plotter还可对miRNA、protein、DNA、therapy进行生存分析,根据需要选择相应的模块即可。
2、输入目标基因,根据需要进行设置,最后点击“Draw Kaplan-Meier plot”绘制生存曲线(图2),即可得到生存曲线图(图3):
图2 输入基因名以及设置相应的条件 图3 TP53的表达与肝癌患者OS的相关性图3中,黑色曲线代表TP53低表达组,红色曲线代表TP53高表达组。可以看出在整体趋势上,TP53高表达组肝癌患者的生存率要优于低表达组。除此之外,还需关注右上角的HR值与p值。HR,全称风险比(Hazard Ratio),在生存分析中可以简单理解为判断某种基因的表达对患者的生存是有利因素还是不利因素的指标——当HR<1且p<0.05(差异有统计学意义)时,说明该基因的高表达能降低患者死亡风险,提高患者的生存率,是有利因素;当HR>1且p<0.05时,说明该基因的高表达会增加患者死亡风险,降低患者的生存率,是不利因素;当HR=1且p<0.05时,说明该基因的表达高低对患者的生存率没有影响。图3中,HR=0.65且p<0.05,说明相比于TP53低表达组,TP53高表达组肝癌患者的生存率更高,TP53的高表达可降低肝癌患者35%的死亡风险且差异有统计学意义,TP53的高表达有利于肝癌患者生存。
这个非常简单的零代码生存分析你学会了吗?快去动手试试吧!
本文首发于“生信大碗”公众号,转载请注明出处
—END—
网友评论