经常有人会问小编,TCGA下载的数据中,样本的ID号究竟代表什么意思。从样本ID号上能看出样本类型吗?首先小编先给大家一个肯定的答案。从TCGA的样本ID号上是可以区分样本类型的。
我们以TCGA-CHOL这套数据的sample sheet为例,sample sheet的下载方法和详细讲解,参考下面这个视频。☞新版TCGA数据库RNAseq数据下载
得到的sample sheet内容如下,我们用Excel打开,然后直接查看最后几列。从Sample ID和Sample Type的对应关系不难发现,后缀为-01A的是Primary Tumor样本,后缀为-11A的是Solid Tissue Normal样本。
![](https://img.haomeiwen.com/i24747866/8a2372fc4c9bdd97.png)
而事实上也是这样的,从TCGA官方文档
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
我们可以看到后缀中数字与样本类型的对应关系。
![](https://img.haomeiwen.com/i24747866/c6c563e03698cacf.png)
那么-01A和-11A,这里的字母A又是什么含义呢?
![](https://img.haomeiwen.com/i24747866/8cc79ccd8e6eb1a1.png)
从TCGA的另外一个官方文档上我们可以看到具体的解释。
https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/
![](https://img.haomeiwen.com/i24747866/42c4ade41cf4a948.png)
从这个示意图上可以看到,有时候我们可以从一个病例身上取多个样本,不论是肿瘤样本,还是癌旁正常对照,然后存放在不同的管子里面。这里的A,B,C就表示样本的顺序。官方文档的解释如下。
![](https://img.haomeiwen.com/i24747866/a83f31fa83bef87d.png)
讲到这里,我相信大家对TCGA中的样本ID有了更深入的理解。如果对TCGA还不太了解的小伙伴,可以参考生信交流平台往期的内容。
前面小编也给大家详细介绍过TCGA这数据库,从RNAseq数据,miRNA-seq数据的下载合并,到临床数据的下载,再到差异表达分析。
☞新版TCGA数据库RNAseq数据下载
☞新版TCGA数据库miRNA数据下载
☞R代码合并新版TCGA数据库RNAseq表达谱数据
☞零代码合并新版TCGA数据库RNAseq表达谱数据
从体细胞突变数据的下载到合并成maf文件,然后绘制瀑布图。
☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)
☞ 【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图
从甲基化数据的下载到甲基化水平矩阵的合并
网友评论