如何从cBioPortal批量下载TCGA数据

作者: xuzhougeng | 来源:发表于2018-11-27 12:57 被阅读38次

如何从cBioPortal批量下载TCGA数据
TCGA数据分析（4）
TCGA下载系列教程终章
TGCA数据的标准化以及差异分析
R语言合并TCGA中CNV矩阵
利用R包TCGAbiolinks进行各种数据下载
R代码合并TCGA体细胞突变数据
【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图
TCGA临床资料的下载和整理
如何从TCGA数据库下载DNA甲基化数据

cBioPortal对癌症基因组数据集做了比较好的整合，为了进行数据集的下载、分析和可视化。

可以用网页工具或者它们提供的R包"cgdsr"对几个目标基因进行分析，或者下载他们从Broad Institute Firehose下载整理的数据集。

cBioPortal的数据集下载页面如下，可以直接点击下载按钮下载单个数据集, 如果要批量下载，就需要一点网络爬虫的小知识。

网页内容

使用Chrome浏览器的检查功能，寻找实际的下载地址

image.png

不难发现，下载链接是http://download.cbioportal.org/paac_jhu_2014.tar.gz

下载地址

一开始的想法是，用curl http://www.cbioportal.org/datasets下载网页，然后用grep找到所有的下载链接，但是通过检查原代码，我发现这个页面其实是动态加载，不能通过常规的爬虫手段。

根据我的爬虫经验，下一步就是找JSON包，一般这种延迟加载的网页都会接着向服务器发起申请，获取需要的数据，果不其然，被我找到了json包。

JSON

wget http://www.cbioportal.org/proxy/download.cbioportal.org/study_list.json

检查该文件，推测里面每一行都是之前下载链接中压缩包文件名前缀

json内信息

构建一个下载shell脚本

for study in $(sed  -e 's/"//g'  -e 's/\[//' -e 's/\]//'  -e 's/,//' study_list.json)
do
    wget "http://download.cbioportal.org/${study}.tar.gz"
done

发现能够顺利下载，证明了猜测，就是下载速度非常的感人。

网友评论

本文标题：如何从cBioPortal批量下载TCGA数据

本文链接：https://www.haomeiwen.com/subject/ngkgqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

如何从cBioPortal批量下载TCGA数据

相关文章