TCGA数据库下载:多种方法及优缺点介绍

作者: mayoneday | 来源:发表于2019-06-17 20:05 被阅读78次

    在TCGA数据库下载文件有很多种方法:

    一.利用R语言下载(本文重点介绍这个)

    R语言有很多不同的包可以用于下载TCGA文件(意思就是不同的代码实现下载TCGA数据的同一目的)
    

    方法1:TCGAbiolinks包(首推这个方法!!目前没发现明显缺点)

    library(TCGAbiolinks)#加载包
    query <- GDCquery(project = "TCGA-DLBC", #选定要下载的肿瘤类型
                         data.category = "Transcriptome Profiling",#选定要下载的数据范畴
                         data.type = "Gene Expression Quantification",#选定要下载的数据类型
                         workflow.type = "HTSeq - Counts"#选定要下载RNAseq的-COUNT文件
    )#这个过程和官网的筛选是差不多的,和下图的筛选是实现的同样的目的
    
    选择你想下载的文件.jpg
    GDCdownload(query, method = "api", files.per.chunk = 100)
    expdat <- GDCprepare(query = query)
    library(SummarizedExperiment)
    count_matrix=assay(expdat)
    write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-"))
    #下载,并把文件保存
    
    文件下载成功

    方法2:RTCGAT包

    source("https://bioconductor.org/biocLite.R")
    biocLite("RTCGA")
    # Install the clinical and mRNA gene expression data packages
    biocLite("RTCGA.clinical") ## 14Mb
    biocLite('RTCGA.rnaseq') ##  (612.6 MB)
    biocLite("RTCGA.mRNA") ##  (85.0 MB)
    biocLite('RTCGA.mutations')  ## (103.8 MB)
    ##加载包,这些包里面存的是相应的数据
    library(RTCGA)
    all_TCGA_cancers=infoTCGA()
    library(RTCGA.clinical) 
    library(RTCGA.mRNA)
    
    ## 从下载的数据包中提取我们需要的文件,需要选择癌症种类,还有数据的种类等,基因种类等
    library(RTCGA)
    library(RTCGA.mRNA)
    expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA,
                            extract.cols = c("GATA3", "PTEN", "XBP1","ESR1", "MUC1"))
    

    缺点:它是先下载所有已经存储的数据,然后从里面挑选你要的,缺点一是下载所有数据是因为文件太大会很慢,缺点二是数据并非最新的,上面代码为2015-11-01 版本的 TCGA 数据

    方法3:RTCGAToolbox包

    #source("https://bioconductor.org/biocLite.R")
    #biocLite("RTCGAToolbox")
    #加载包
    library(RTCGAToolbox)
    #哪些癌症数据可以下载
    getFirehoseDatasets()
    #数据库中更新时间
    getFirehoseRunningDates()
    getFirehoseAnalyzeDates()
    ## 下载数据,需要选择癌症种类,数据分析时间,还有数据的种类
    brcaData = getFirehoseData (dataset="BRCA", runDate="20160128",
                                forceDownload = TRUE,
                                clinical=TRUE, Mutation=TRUE)
    save(brcaData,file='brcaData.RTCGAToolbox.Rdata')
    load(file='brcaData.RTCGAToolbox.Rdata')
    brcaData
    

    缺点:有时候过大的文件下载不下来,我应用时就出现了要求下载RNAseq时它无法下载,下下来的是临床数据,不明白原因,如果有大佬看到麻烦解答一下

    二.一起下载所有的TCGA文件(小白首推方法!!)

    方法一:

    这是生信技能树健明老师的已经下载好的TCGA数据库网盘链接,可以直接在里面选择下载,超级福利,超方便!!: https://share.weiyun.com/56URQ3a

    微信截图_20190617195908.png
    微信截图_20190617195933.png

    方法二:UCSC xena浏览器,已经给你把TCGA数据分类好了,直接点相应的癌症类型,相应数据下载

    https://xenabrowser.net/datapages/

    微信截图_20190617202536.png
    优点:简单方便
    缺点:如果网速慢,你往往面临网页打不开,下载慢等问题

    三.在其TCGA网页上直接下载,输入选择条件,点击加入购物车,然后一起下载。

    优点:简介方便,有点类似淘宝购物
    缺点:此方法一般用于少量样本的下载,因为不能下载过大的数据,而且点那么多次购物车也很累啊!

    四.通过TCGA官方网站提供的GDC下载工具下载,安装一个软件,然后运行后台下载

    优点:下载的是实时的最新文件
    缺点:步骤比较多,需要更改的方面比较多,电脑小白可能比较难以操作,且中文的系统无法用

    五.网页工具下载

    方法一:如果想要数据复现的话推荐:cBioPortal网页工具,内部的数据是根据TCGA发表的paper分类的

    QQ截图20190619201220.jpg

    方法二:

    QQ截图20190619202321.jpg

    最后

    感谢jimmy的生信技能树团队!

    感谢导师岑洪老师!

    感谢郭寶平师兄的指点!

    感谢健明、孙小洁,慧美等生信技能树团队的老师一路以来的指导和鼓励!

    相关文章

      网友评论

        本文标题:TCGA数据库下载:多种方法及优缺点介绍

        本文链接:https://www.haomeiwen.com/subject/xdpzfctx.html