近期在整理毕业论文代码,同时也看到身边很多师弟师妹对TCGA数据的下载存在疑惑,所以将本文分享给大家,有需要的可以看看!
TCGA下载的方式(我用过的)
- 生信人小盒子
- UCSC xena浏览器
- TCGA网页
- RTCGAT包
- TCGAbiolinks包
对于以上方法,我刚开始使用的是生信人小盒子,因为在写文章时的引用问题,我后来选择了TCGAbiolinks包。重要的是前段时间,该包进行了升级。主要的更新内容是:
- more accurate and flexible pipelines for differential expression analyses.
- different methods for tumor purity estimation and filtering.
- integration of normal samples from other platforms.
- support for other genomics datasets, exemplified here by the TARGET
data.
除了上述,肿瘤纯度在肿瘤大数据挖掘中也有其重要的作用,TCGAbiolinks包可以对其进行评估,并且还可以下载到Genotype-Tissue Expression (GTEx)数据,其次在写文章时引用也不存在问题(两篇文章)。所以建议用该包下载!
TCGAbiolinks 文章1
TCGAbiolinks 文章2
TCGAbiolinks和别的方法对比
TCGAbiolinks主要功能
TCGA数据库下载:多种方法及优缺点介绍一文对各种方法进行了评估,也推荐该工具下载。该包的手册写的非常棒,如果有需要下载TCGA数据的可以认真阅读下该包的指南!
在学习该包过程中容易出现的疑问
- TCGAbiolinks可供下载的数据有两种,一个是Harmonized数据;另一个是Legacy数据。两者的差别请见【工具】TCGAbiolinks分析TCGA数据(DEA篇)。实际上,在使用过程中,知道以下就行:Legacy数据hg19和hg18为参考基因组(老数据)而且已经不再更新了,Harmonized数据以hg38为参考基因组的数据(新数据)。
- 你只用知道:下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的就可以了。
下载转录组数据
其实利用TCGAbiolinks下载TCGA数据的教程很多,都是千篇一律。这里推荐以下TCGA数据下载—TCGAbiolinks包参数详解,该文对TCGAbiolinks包进行了详细的解读。如果大家下载转录组数据,可以参考以下代码:
# TCGA数据的下载与整理
setwd("E:/My Master's Graduation Design/data analysis/TCGA")
library(TCGAbiolinks)
library(dplyr)
library(DT)
library(SummarizedExperiment)
getGDCprojects()$project_id #获取TCGA中最新的不同癌种的项目号
TCGAbiolinks:::getProjectSummary("TCGA-PAAD") #查看胰腺癌的数据类型
query <- GDCquery(project = "TCGA-PAAD",
legacy = FALSE,
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts")
GDCdownload(query)
TCGA_RNASeq <- GDCprepare(query, save = TRUE, save.filename = "TCGA_query.Rdata")
TCGA_counts <- assay(TCGA_RNASeq)
TCGA_counts <- as.data.frame(TCGA_counts)
colnames(TCGA_counts) <- substr(colnames(TCGA_counts),1,15) #整理样本名
save(TCGA_counts, file = "TCGA_counts.Rdata")
## 临床数据下载
TCGA_clinical <- GDCquery_clinic(project = "TCGA-PAAD", type = "clinical")
save(TCGA_clinical, file = "TCGA_clinical.Rdata")
网友评论