美文网首页
TCGA数据库的数据下载

TCGA数据库的数据下载

作者: 生信大碗 | 来源:发表于2022-10-21 17:50 被阅读0次

    本文首发于“生信大碗”公众号,转载请注明出处

    各位小伙伴们大家好!

    今天带大家学习一下数据挖掘经常用到的一个数据库——TCGA数据库的数据下载

    首先我们要知道TCGA数据库即肿瘤基因组图谱计划,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和  National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,包括基因组、转录组、表观遗传、蛋白组等各个组学,提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型,涵盖的数据类型广泛,包括:Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。

    TCGA数据库数据的下载方法有很多,我们今天主要以肝癌为例,给大家介绍两种最常用的数据下载方法,快来一起学习一下吧!

    第一种方法

    通过TCGA官方提供的下载工具GDC下载数据

    1、登录GDC官网:https://portal.gdc.cancer.gov/

    2、点击Repository

    3、点击Case

    4、选择TCGA、TCGA-LIHC

    5、点击Files,勾选图中标记的地方

    6、点击Add All Files to Cart,点击进入Cart

    7、点击Clinical下载临床信息,点击Metadata 下载样本信息,点击cart 下载基因文件

    然后等待下载就可以了,需要注意的这样下载下来的数据文件,将每个样本放在一个单独的文件里面,因此,下载完成后我们会得到成百上千的文件,后续需要再进行读取合并。

    第二种方法

    通过UCSC Xena网站下载数据,这种方法更简单哦!

    1、登录UCSC Xena官方网站https://xenabrowser.net,点击DATA  DETS

    2、跳转页面后,下翻找到目标癌症并点击

    3、选择需要要下载的数据类型

    进入该癌种的页面后,我们可以看到有很多种数据,选择需要要下载的数据类型,这里我们以基因表达数据为例,可以看到这里的表达数据有三种类型,分别是Counts 、 FPKM 和FPKM-UQ ,根据需要选择对应的类型,以Counts为例,点击进入,在这里我们可以看到这个数据详细的信息,包括队列、数据集 ID、下载链接、样品数等。

    4、点击下载链接

    即可下载基因表达的RNAseq数据

    小tips:

    大家需要注意的是,UCSC的数据更新并不及时,如果你要下载的是最新的临床信息,还是推荐从TCGA官网下载,因为TCGA官网的临床信息一般间隔一段时间是会更新的。但如果你需要的数据是甲基化、基因表达RNAseq、拷贝数等,那就没有什么影响,因为这些数据即使TCGA官网更新,也不会发生很大的变化。

    今天的分享就到这里结束了,我们下次再见啦!

    本文首发于“生信大碗”公众号,转载请注明出处

    —END—

    相关文章

      网友评论

          本文标题:TCGA数据库的数据下载

          本文链接:https://www.haomeiwen.com/subject/gkkbzrtx.html