美文网首页方法学
TCGA数据下载

TCGA数据下载

作者: 梦幻天堂_ccd5 | 来源:发表于2019-03-25 12:26 被阅读0次

    TCGA是目前使用最多的肿瘤组学数据库,2018年的一批Cell文章也非常抢眼。在近年的肿瘤文章中,对TCGA数据库的分析,已成为标配。使用这个数据库,首先,当然是数据的下载了。
    第一步,使用什么工具下载?结论是TCGAbiolinks包。着急用代码实战的亲们可跳到第二步了。
    主要的下载资源有三处:官网、GDAC Firehose、UCSC Xena。
    但是,
    从能否下载raw_counts数据看,仅官网、Firehose可以。
    从随访数据更新速度看,仅官网最全最新,Firehose更新最慢,Xena缺少用药数据。
    从数据整理的难度看,难 -> 易:官网 > Firehose > Xena。
    于是,综合来看,官网下载的数据是最全最新的,缺点是整理难度大。如果有工具弥补即可。TCGAbiolinks包可以弥补这点。这个包是从官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。

    第二步,肺癌mRNA数据的下载。可推广到miR、CNV、甲基化等数据。

    # 安装R包
    source("https://bioconductor.org/biocLite.R")
    biocLite("TCGAbiolinks")
    # 加载R包
    library(TCGAbiolinks)
    projectid <- "TCGA-LUAD"
    query.count <- ***query(project= projectid,
    
                           data.category = "Transcriptome Profiling",
    
                           data.type = "Gene Expression Quantification",
    
                           workflow.type = "HTSeq - Counts")   # 需注意“-”前后的空格
    # 下载数据
    ***download(query.count)
    # 获得表达矩阵
    dataAssay = ***prepare(query.count, summarizedExperiment = F)
    rownames(dataAssay) = as.character(dataAssay[,1])
    # dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。
    # 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。
    write.csv(dataAssay, "TCGA-matrix.csv")  # 此时,保存的文件名为“TCGA-matrix.csv”
    

    下载速度取决于网络与官网的连接。该代码第一次运行时下载数据,之后,在同一文件夹再运行,不会重复下载数据,而会读入之前下载的数据。
    ***是三个字母,不知道为什么被和/谐了……分别是"G""D""C"

    相关文章

      网友评论

        本文标题:TCGA数据下载

        本文链接:https://www.haomeiwen.com/subject/srevvqtx.html