美文网首页R语言做生信GEO&TCGA数据库挖掘TCGA数据分析
手把手教你用R语言下载TCGA数据库:FirebrowseR

手把手教你用R语言下载TCGA数据库:FirebrowseR

作者: 765f2ea50d22 | 来源:发表于2019-05-03 10:41 被阅读5次

    本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

    点击蓝字关注我们

    各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果把TCGA比作一座山,聪明的科研工作者,便可以开发出无数有效的翻山越岭的工具,今天,我们同样的比对着之前的网页版工具,来看看又有什么好工具来值得开发?

    之前,岛主给大家推荐了Fire Browse工具,进行数据下载:

    零代码下载TCGA数据库第四期:Fire Browse工具

    ,那么Fire Browse有没有对应的R语言工具包呢?这个时候怎末办呢?

    别急,我们直接上网页去看有没有R包。

    甩出网址链接:http://firebrowse.org/ 

    Fire Browse

    点击WEB API,便可以看到这样的界面:

    我们看到它不仅提供了R接口,还提供了python接口,自然我们今天主要是介绍R语言处理该数据,点击进去,如下:

    Github地址:https://github.com/mariodeng/FirebrowseR

    所以今天的主角便是FirebrowseR工具包。

    下面开启你的R界面,学习该包:

    1.  FirebrowseR安装有些不同,首先要先安装devtools包:

    接着再去安装FirebrowseR,安装命令如下:

    2.  加载该包:

    OK,可以看到没有任何问题,这也表明,我们安装成功该工具包

    3.  查看存在哪些数据集,命令如下:

    结果如下:

    分别代表TCGA癌症的简称和癌症的描述。Firebrowse一共存在38个癌症数据集。

    4. 这里我们以肺癌为列,名称为Lung adenocarcinoma。

    可以看到在TCGA的简称为LUAD

    5. 写个函数来下载临床数据,这里提醒一点,在下载表达数据的时候,最后先下载临床数据:

    一个while循环下载相应的临床数据,借助的函数为Samples.Clinical 函数,该函数需要输入四个参数,format这里选择了csv格式文件,cohort参数代表需要下载的癌症简写,这里为LUAD,page_size默认为150,z一般使用默认值即可,page代表下载的当前页码。

    结果文件如下:

    6. 同样写个函数来下载特定基因的表达数据:

    首先定义好我们感兴趣的基因,这里随意选择了三个基因,分别为ESR1,GATA3,XBP1,接着同样的一个while循环下载数据,注意一点我们在给Sample.mRNASeq输入参数的时候,需要用到luad.Pats这个对象,因此建议大家先下载临床信息,在下载特定的基因表达信息。

    7. 表达信息合并整理:

    结果如下:

    Sample type这一列women看到,两种类型,NT和TP,其中NT为癌, TP为癌旁,这个时候你的表达信息也就下载好了

    8. 可视化一下,如下:

    结果如下:

    这样你就可以看到自己感兴趣的基因在不同样本里表达信息。

    OK,今天的教程主要是带大家体验TCGA基于R语言的第三种数据下载方式,下期我们继续推出TCGA的第四种编程方式下载,今天的数据下载先讲到这,下期再见。

    相关文章

      网友评论

        本文标题:手把手教你用R语言下载TCGA数据库:FirebrowseR

        本文链接:https://www.haomeiwen.com/subject/ctuanqtx.html