导读
在肿瘤相关研究中,一张精美的生存分析图,已经成了肿瘤研究高分文章的标配。好的临床预后效果,往往在一定程度上决定了文章发表的层次。然而对刚刚拿到一个新基因的新手来说,生存分析永远是跨不过去的一个坑:预后结果不显著了?出图被吐槽太丑了?没关系,今天大师姐亲手抱你出坑!
正文
大师姐在此实名推荐 3个在线生存分析神器,同时也是在肿瘤相关文献中出现率非常高的生存分析工具: GEPIA、Kaplan-Meier Plotter、OncoLnc。本文以CD24基因为例,与大家一起对这三个神器逐一进行测评:
1.GEPIA2
网址:http://gepia2.cancer-pku.cn/#index
在首页左边栏中依次 点击Expression Analysis → Survival Analysis, 输入我们 研究的基因CD24,并 选择TCGA数据库中的目的癌种(肝癌是LIHC,其它癌种缩写可点开浅绿色字体的“Cancer name”进行查看)并 Add到数据集框中。其它参数默认。
image点击Plot出图,可在当前页面下方看到生存分析的结果和KM曲线,虚线代表置信区间(默认95%)。可以说,GEPIA的图还算是蛮精致的,直接放文章里也够用了。结果图可点击图片右上方的下载按钮,保存高清无码的PDF矢量图。
image完了,这个生存分析的P值不显著啊!在我们现实的研究中也经常遇到类似问题:预后不显著,又没有自己的临床病例资源,生存分析怎么办?
咳咳,这点问题都解决不了,我大师姐的面子何在。出坑秘籍来了: 先调整一下Cutoff值:默认选项是按中位数划分CD24的高低表达,我们把高/低表达的分组重新定义成CD24高/低表达的前35%(这个数字可以任意设置。 分组的Cutoff是可以由研究者自由定义的,只要结果显著即可)。 顺便我们也对出图进行一下美化:95%置信区间的虚线太丑,都重叠在一起了,去掉!红蓝配色太屯了,换掉!(这些都可以根据大(lao)家(ban)的喜好以及出图效果进行调整)。 点击Plot出图,P显著了!图也变美了!
image总生存期(Overall Survival)搞定,无病生存期(Disease Free Survival (RFS))用这个网站也完全OK!(无病生存期是指从随机化开始至疾病复发或因疾病死亡的时间,也是肿瘤预后的重要指标。)
image总结:****GEPIA操作简便、分组的Cutoff值可调、出图格式可调、涵盖的癌种全面、速度对国内用户非常友好。多数时候,一个GEPIA可以搞定绝大多数的生存分析需求。但缺点也很明显:不能自动选取最优Cutoff值(以至于手动尝试时,常常找不到结果最显著的分组策略);不能限制研究截止年限(比如只关注患者五年生存期时);不能对特定人种、性别、指定病理分期等的预后情况进行分析等。
2.Kaplan-Meier Plotter
网址:http://kmplot.com/analysis/
能化腐朽为神奇的生存分析神器,某种程度上甚至可以说,没有Kaplan-Meier Plotter搞不定的生存分析!(如果有,那你的这个基因可能真的是和生存关系不大了……)
Kaplan-Meier Plotter用的是开发者自测的数据库,因此包含的癌种没有TCGA那么全面。我们这里选择liver cancer的RNA-seq数据集,继续对CD24的预后情况进行探索:
image输入基因名CD24,其它选项全部默认。 网站会为我们自动选取Cutoff值进行分组。点击Draw Kaplan-Meier plot出图:
image自动分组果然强大,CD24的总生存期一下就显著了呢!还自带了寿命表!
image虽然配色什么的都不可调,但 精美程度完全OK,还能下载PDF格式高清图,直接放文章里完全够用(不得不说,在肿瘤相关研究中,Kaplan-Meier Plotter由于其独有的优势,很可能是生存分析在线工具的成图使用率最高的网站了)!这还没完,我们观察到,默认出图统计了患者的十年生存期,但在5年后曲线发生了交叉。而我们知道,肿瘤的五年生存期,才是衡量一个肿瘤相关基因表达对预后影响情况的更准确的指标。所以如果我们想把统计年限缩短至五年呢?
于是,我们尝试了一下把随访时长缩短至5年(60个月):
image结果不出所料,P值更显著了:
image如果到这步你的结果还不显著,也可以继续尝试调整分期、人种、性别、风险因子等选项(当然做无病生存期RFS也可以)。我博士课题研究的基因,也是在这里把人种限制到“亚洲人种”时,才出现显著预后差异的。也许你看起来貌似不影响预后生存的基因,也只有在指定性别或人种中,才对生存期有影响呢。
总结:****Kaplan-Meier Plotter可调整的临床信息全、数据使用的自由度高、能自动选择最佳Cutoff值即分组策略、操作简便、出图也相对美观;由于用的是制作者自测的数据库,因此本网站也可以作为TCGA相关数据挖掘工具的补充。最重要的是, Kaplan-Meier Plotter最容易得到差异显著的阳性结果,因此其成图在肿瘤相关文章中出现率极高。作者在此能想到的Kaplan-Meier Plotter唯一缺点就是,涵盖的癌种实在是太太太少了……
3.OncoLnc
和GEPIA同样,是 基于TCGA数据库的在线工具。虽然在功能和出图效果上都十分不尽人意,但作为本文最后大招放出的OncoLnc,终有其有用之处。比如我们要看CD24在脑胶质瘤中的五年生存期,GEPIA2做不了五年生存期,Kaplan-Meier Plotter搞不定脑胶质瘤,怎么办?此时就该OncoLnc登场了。毕竟 这个网站有个其它类似网站都没有的逆天功能: 能下载原始表达数据和对应的预后信息!
首先在首页输入我们的基因,点Submit提交后,选择癌种LGG,点击后面的Yes Please提交;
image在新弹出的页面中定义Cutoff值(一般用中位数定义分组,即50%-50%),Submit后就能看到KM生存图和P值了。
image此时可能有同学会说,曾经沧海难为水,看过前面两个网站的那么精美的成图,我们已经接受不了OncoLnc这么丑的图了!而且,似乎这也不是做的五年生存期啊,这随访天数最少都得有十多年了!没关系啊,大招还没来。页面往下拉,你最想要的原始数据来了:
image点击Click Here下载excel格式的原始数据。想要指定的随访截止年份,甚至想把表达分成高中低三个组……把数据玩出花样,没有它做不到,只有你想不到。当然,这些处理可能要借助其他的作图工具了,给大家推荐两个对无代码基础的新手相对友好的工具:GraphPad Prism软件,Hiplot网页工具, 有需要的同学可以自行探索,或查看我们之前的生存分析相关教程:
当然, 支持大师姐再来一篇自制超精美生存曲线教程的请在文末点赞,大师姐会根据需求斟酌写稿哦!
image总结:OncoLnc网速慢、出图丑,多数时候不建议大家使用。但 其庞大的数据库和逆天的原始数据下载功能,以及简便的操作、对无代码基础使用者非常友好的原始数据下载方式,够它再6一百年!
网友评论