TCGA数据库简介

作者: Stone_Stan4d | 来源:发表于2017-12-03 15:15 被阅读1046次

    原文来自这里

    TCGA是美国(画外音,又是美国,而且又是免费)国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。

    TCGA第一阶段的测试项目,是以胶质母细胞瘤、肺癌和卵巢癌作为研究重点。其后的第二阶段,计划到2014年完成20-25种不同癌型的分析,而TCGA超额完成任务,已经收录包括10种罕见癌型在内的33种类型的癌症。

    作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP,而相对于GEO数据库,小编觉得TCGA最大的优势是丰富规范的临床数据,以及针对每种癌型的大样本量,简直令人无法抗拒!

    注意,TCGA现在的数据均收录在GDC中,而GDC同时也收录了TARGET数据库的数据,在GDC中可以通过GDC Data Portal 和 GDC Legacy Archive 这两种方式获得TCGA数据,官方解释如下:
    Data in the GDC Data Portal has been harmonized using GDC Bioinformatics Pipelines whereas data in the GDC Legacy Archive is an unmodified copy of data that was previously stored in CGHub and in the TCGA Data Portal hosted by the TCGA Data Coordinating Center (DCC).
    总结来说就是,GDC Data Portal 中的数据是最新经过统一标准整理的,但有些数据还未开放,而 GDC Legacy Archive 中的数据是所有未经处理的数据,更全面。

    什么时候用 GDC Data Portal ,什么时候用 GDC Legacy Archive?

    默认情况下TCGA的数据检索和下载是通过 GDC Data Portal 方式进行的,点击首页右上角 Launch Data Portal

    此时界面会跳转到GDC Data Portal

    image.png

    首先映入眼帘的就是对TCGA所收录的数据的统计,简单直接,截至2017年11月24日最新发布 Release 9.0 中,TCGA共覆盖人体60个组织/器官的38种癌型及其亚型,40个Projects,32,555个患者,收录的文件总数达到310,858个,所研究的基因和变异数分别为22144和3115606,总之,对于癌症的研究,可以说是很巨大的资源宝库了!

    放两个链接供有兴趣的小伙伴参考:

    后面就要讲怎么进行生物数据挖掘了。。。

    相关文章

      网友评论

        本文标题:TCGA数据库简介

        本文链接:https://www.haomeiwen.com/subject/jriabxtx.html