美文网首页
生信笔记

生信笔记

作者: 一只濒危物种鸭 | 来源:发表于2020-08-25 18:16 被阅读0次

    一、下载TCGA数据方法

    1. 直接从官网下载数据

    登陆TCGA网站:https://portal.gdc.cancer.gov

    点击repository

    File和Case分别选择如下

    Add all files to cart

    分别下载箭头处的文件

    image.png

    Manifest 解释文件

    cart  基因文件

    BioSpecimen 解释生物多样性的文件

    Metadata  样本对应的文件 TCGA的ID对应

    Clinical 临床信息

    注意:manifest一定要进入购物车再下载,不然会出错!!!

    下载manifest转译工具

    下载得到这个工具

    打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。

    把gdc-client加入环境变量

    有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:

    打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。

    打开电脑控制面板

    系统和安全

    系统

    高级系统设置

    环境变量

    Path

    上面配置都完成后,看下图,现在简单输入gdc-client -h 就行了。

    使用gdc-client下载TCGA数据

    下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:

    gdc-client download -m gdc_manifest.2018-07-02.txt

    然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。

    最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:

    2. TCGAbiolinks包下载

    首先需要配置R语言环境,具体可以百度R语言编译环境配置教程。

    加载该包

    library(TCGAbiolinks)#加载包

    query <- GDCquery(project = "TCGA-DLBC", #选定要下载的肿瘤类型

                        data.category = "Transcriptome Profiling",#选定要下载的数据范畴

                        data.type = "Gene Expression Quantification",#选定要下载的数据类型

                        workflow.type = "HTSeq - Counts"#选定要下载RNAseq的-COUNT文件

    )#这个过程和官网的筛选是差不多的,和下图的筛选是实现的同样的目的

    下载数据

    GDCdownload(query, method = "api", files.per.chunk = 100)

    expdat <- GDCprepare(query = query)

    library(SummarizedExperiment)

    count_matrix=assay(expdat)

    write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-"))

    #下载,并把文件保存

    相关文章

      网友评论

          本文标题:生信笔记

          本文链接:https://www.haomeiwen.com/subject/sebzjktx.html