本文首发于“生信大碗”公众号,转载请注明出处
各位小伙伴们大家好!
今天带大家学习一下数据挖掘经常用到的一个数据库——TCGA数据库的数据下载
首先我们要知道TCGA数据库即肿瘤基因组图谱计划,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,包括基因组、转录组、表观遗传、蛋白组等各个组学,提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型,涵盖的数据类型广泛,包括:Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。
TCGA数据库数据的下载方法有很多,我们今天主要以肝癌为例,给大家介绍两种最常用的数据下载方法,快来一起学习一下吧!
第一种方法
通过TCGA官方提供的下载工具GDC下载数据
1、登录GDC官网:https://portal.gdc.cancer.gov/
2、点击Repository
3、点击Case
4、选择TCGA、TCGA-LIHC
5、点击Files,勾选图中标记的地方
6、点击Add All Files to Cart,点击进入Cart
7、点击Clinical下载临床信息,点击Metadata 下载样本信息,点击cart 下载基因文件
然后等待下载就可以了,需要注意的这样下载下来的数据文件,将每个样本放在一个单独的文件里面,因此,下载完成后我们会得到成百上千的文件,后续需要再进行读取合并。
第二种方法
通过UCSC Xena网站下载数据,这种方法更简单哦!
1、登录UCSC Xena官方网站https://xenabrowser.net,点击DATA DETS
2、跳转页面后,下翻找到目标癌症并点击
3、选择需要要下载的数据类型
进入该癌种的页面后,我们可以看到有很多种数据,选择需要要下载的数据类型,这里我们以基因表达数据为例,可以看到这里的表达数据有三种类型,分别是Counts 、 FPKM 和FPKM-UQ ,根据需要选择对应的类型,以Counts为例,点击进入,在这里我们可以看到这个数据详细的信息,包括队列、数据集 ID、下载链接、样品数等。
4、点击下载链接
即可下载基因表达的RNAseq数据
小tips:
大家需要注意的是,UCSC的数据更新并不及时,如果你要下载的是最新的临床信息,还是推荐从TCGA官网下载,因为TCGA官网的临床信息一般间隔一段时间是会更新的。但如果你需要的数据是甲基化、基因表达RNAseq、拷贝数等,那就没有什么影响,因为这些数据即使TCGA官网更新,也不会发生很大的变化。
今天的分享就到这里结束了,我们下次再见啦!
本文首发于“生信大碗”公众号,转载请注明出处
—END—
网友评论