前面给大家介绍了
☞新版TCGA数据库RNAseq数据下载
☞新版TCGA数据库miRNA数据下载
☞R代码合并新版TCGA数据库RNAseq表达谱数据
☞零代码合并新版TCGA数据库RNAseq表达谱数据
☞R代码TCGA差异表达分析
☞零代码TCGA差异表达分析
我们也有相关的视频课程详细介绍TCGA数据库挖掘
也给大家讲解过
以及生存曲线的绘制
有小伙伴不知道如何处理TCGA的临床数据得到样本的生存时间和生存状态。今天小编就给大家讲解一下如何得到这些信息,并且将他们跟基因的表达值合并起来,方便后续做生存分析,单因素和多因素cox回归分析。
我们会得到如下的表格,前两列是样本的生存时间(年为单位)和生存状态(1为存活,0为死亡),从第三列开始为基因的表达值,每一行为一个样本。
1. 下载包含临床信息的clinical.tsv文件
在☞新版TCGA数据库RNAseq数据下载 中我们用视频演示了如何从TCGA下载样本的临床数据,clinical.tsv文件。
2.处理clinical.tsv文件
在clinical.tsv文件中每个样本有两行信息,实际上是重复的,我们只需要保存其中的一行就可以了。
3.提取生存状态和生存时间
生存状态在clinical.tsv文件中对应vital_status列,生存时间有两列,days_to_death和days_to_last_follow_up,需要进行整合。
4.将样本的表达矩阵和生存状态以及生存时间合并起来
这里需要注意,我们只提取肿瘤样本的表达矩阵进行后续的生存分析,和cox回归分析。因为生存时间和生存状态是跟病例相关的,而不是跟样本相关。不论是肿瘤样本还是癌旁正常对照样本,他们对应的这个个体的生存状态和生存时间是一样的。
完整的R代码+详细注释☟☟☟
网友评论