预后数据查找的几种方法
昨天我们公布了生信人整理的公开数据中免疫治疗的队列数据,其中重要的是生存的数据。后台有小编问很多时候不清楚某一套数据集到底有没有预后的信息,到底应该怎么确定,自己还是不太有把握。
今天小编就抛砖引玉,简单的说下几种确定样本有没有预后信息的方法。
生信分析,第一步就是要找数据,当自己手头的数据不足或者随访信息不全面时,可以优先考虑公开数据库的数据,毕竟公开数据的数据也已经相当丰富了。
图1:NCBI,SRA数据overview
首先我们要考虑的公开数据网站,小编建议先TCGA、ICGC及其他独立网站,后GEO和EBI。
说下原因TCGA数据库是公认的数据质量,随访信息,各个组学数据都比较全面的数据库,多为测序数据,满足多用途的挖掘需求。同样其缺点也很明显,就是大家都会集中在这些数据上挖掘,如何出彩是比拼的重点。
同样对于ICGC、CGGA等这些独立的队列数据库,也是一样的逻辑,就看谁能第一时间掌握最新的数据出炉,基本上这些数据出现就是一批文章。
再后面说下GEO数据库,它的特点是数据量大,包括样本,包括各个组学和平台的数据,多为芯片数据,同样也会存在杂而不精的现象。之前生信人推广的工具,完美的解决了RNA-seq和芯片合并的问题,今天我们再来解决下GEO数据的第二个问题,临床信息整理的不规范。
大家都知道数据分析,离不开样本的随访信息,比如最关注的的预后信息。
但是GEO数据库的这一部分信息整理的相当不规范。我们介绍几种确定样本是否有临床信息的方法,供大家参考。
一、直接看样本信息。
以胃癌为例,搜索“gastric cancer ”检索出胃癌数据,直接点击样本看是否有随访信息。
像这种就直接可以确定为其有随访信息且能下载到。
二、看发表文章的配图
还是以胃癌为例,比如GSE26901这套数据,点击查看样本信息,展示如下:
没有预后信息,一般的生信人到这里就放弃了,不过小编还是建议你此时要多留意下,看看对应的文章。
对应文章发表在nature communication上,对应文章配图也有km曲线,可以明确的是这套数据是有临床随访信息的。
三、看发表文章的补充材料
如果确定了感兴趣的数据确实有临床随访信息,下一步就是如何获取的问题了。
有可能作者公布了,但是没有放在GEO的样本信息中,有可能放在了额外的一个临床信息表中,还有一种可能就是放在了文章的补充材料中。
以GSE26901为例,补充材料中可以看到对应的样本信息是有预后信息的,OS和RFS。
当然我们通过下载这个补充材料,还发现胃癌的5,6套数据都是有预后信息的。
相当于有意外收获。
通过这三种操作,基本上可以保证大概率不会漏掉信息,如果确定有预后信息,但是没法下载到,就可以给客户发邮件沟通了,这个时候就得看人品了。
其实还有另外一种更高维的方式,就是通过阅读感兴趣癌型的文献,对这个癌型了解透彻,基本就能全盘拿捏。这个比较适合临床医生,当然还有一种比较接地气的方法,就是紧跟数据的更新,比如我们的easyGEO,每天会爬GEO的数据,进行汇总,并进行预后信息的大概识别,基本上能满足大家的需求。
网友评论