全文地址: https://bioinfohome.com/index.php/2019/07/09/tcga-01/
TCGA作为肿瘤基因数据的集大成者,其重要性不言而喻。基于TCGA进行数据挖掘是生信分析方向。当然,分析的第一步就是下载,方法有多种,今天,我们介绍如何直接从官网下载。
TCGA数据官网https://portal.gdc.cancer.gov/
从官网下载,步骤比较简单,类似购物,选定肿瘤、数据类型,直接点击全部下载即可。但是,实际操作却不行,因为基因数据本身往往较大,直接下载不现实,需要借助TCGA提供的下载工具。真实可行的是下载临床数据,之后通过文件ID和md5值下载原始样本数据。


最新版TCGA,下载数据,需要到仓库(repository)页面,左侧包含两个tab标签,Cases标签设定肿瘤类型,比如选定肺癌,LUAD;Files标签设定数据类型,一般设定Experimental Strategy加Workflow Type,即可确定范围。确定完毕,点击Add All Files to Cart。数据被加到购物车,右上的Cart,转到下载页面。

下载页面,需要下载四个文件/压缩包:
Biospecimen,样本和病例的支援信息;
Clinical ,病例的临床信息,生成分析所需的时间就在这里面;
Sample Sheet,主要肿瘤相关信息,比如类型;
Manifest,包含文件ID,以及md5(下载原始数据校验用);
最后,在整合这些数据时,注意区分File ID与case ID。
网友评论