美文网首页R语言做生信GEO&TCGA数据库挖掘R语言知识干货
手把手教你用R语言下载TCGA数据库:UCSCXenaTools

手把手教你用R语言下载TCGA数据库:UCSCXenaTools

作者: 765f2ea50d22 | 来源:发表于2019-04-25 10:27 被阅读7次

    本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

    点击蓝字关注我们

    各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推文。还记得它吗?

    UCSC-XENA

    或许你看了之前的推文,了解到了该网站,甚至亲自操作了一番,你这个时候或许会说,这种感觉不正是像极了爱情吗?

    今天,我们学习一下,基于UCSC-XENA开发出的R包UCSCXenaTools.

    在提到UCSCXenaTools该包的时候,我们或许需要了解一下该包的前身XenaR包,这个包提供了一个简单的UCSC Xena接口,可以获取一些UCSC Xena存储的信息,包括GDC、TCGA、ICGC、GTEx、CCLE等数据库的上千个数据集。特别是TCGA(hg19版本)的一部分数据UCSC做了非常好的标准化处理,但是有将近四年没有更新,UCSCXenaTools便是在此基础上开发出来的

    1. UCSCXenaTools安装极其简单:

    2. 加载该包:

    可以看到,这里它还提供了github的地址,以及如果用这个包,如何在文章中引用。

    3.使用XenaHub()可以获取所有的资源,另外可以通过参数指定感兴趣的,包括hosts,cohorts以及datasets。结果返回一个XenaHub对象。Hosts函数:Get hosts of XenaHub object;Cohorts函数:Get cohorts of XenaHub object;Datasets函数:Get datasets of XenaHub object

    4. 为了简化hosts()的输入,我们可以使用hostName指定我们想要搜索TCGA的内容,如下:

    结果如下:

    5. 可以看到有1629个数据集,太多了。下面使用XenaFilter ()函数进行过滤,比如我们下载临床数据,如下,返回的对象依然是XenaHub:

    6.   假如你只想选择跟肺癌相关的数据集,这个时候你还需要再加一些条件:

    7.   如果你很清楚你想要做的,可以使用dplyr的管道操作符进行连续过滤,不过过滤后返回的还是XenaHub对象:

    8. 检索下载,先构建一个query对象(当前还没有用类封装),就是一个数据框,存储了主机地址,下载的url等:

    9.数据下载

    默认XenaDownload函数将下载数据到当前目录的Xena_Data目录下,如果数据已经下载,将提示并不会下载,可以使用force=TRUE强制下载。

    10. 数据下载之后就可以将数据导入R,背后用的是readr包的read_tsv函数

    结果如下:

    这个时候,我们就发现临床信息就被读进R里面了。

    Ok,今天的教程主要是带大家体验TCGA基于R语言的第一种数据下载方式,下期我们继续推出TCGA的第二种编程方式下载,今天的数据下载先讲到这,下期再见。

    代码获取方式:后台回复关键字UCSC,获取R代码

    相关文章

      网友评论

        本文标题:手把手教你用R语言下载TCGA数据库:UCSCXenaTools

        本文链接:https://www.haomeiwen.com/subject/xjragqtx.html