美文网首页
用GDC-client下载TCGA数据

用GDC-client下载TCGA数据

作者: 小狼小狼_e211 | 来源:发表于2020-11-17 09:10 被阅读0次

1.进入TCGA官网

https://portal.gdc.cancer.gov/
选择repository

image.png
根据需求勾选左侧的各种分类,一般先选cases,再选files image.png

勾选完成后点manifest

image.png
下载临床信息
不改变cases的选择,清空files,只勾选data category 中的clinical,和data format中的xml,同样下载manifest文件
在后续用下载得到的miRNA表达数据结合临床信息进行生存分析的时候有用

2.用winscp把文件传到Ubuntu虚拟机(或服务器)上

简略教程https://www.jianshu.com/p/42ce4d56c67e

3.Ubuntu虚拟机操作

从官网下载GDC-client

wget https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
#这里直接运行会有个报错我忘记下来了,大意就是说这个网站安全证书有问题问你要不要继续,如果继续的话运行另一行命令
#按照提示改成这样
wget --no-check-certificate https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip

然后解压

unzip gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip

根据提示查看使用方法

./gdc-client --help
./gdc-client download --help

从刚刚下载的manifest文件下载数据

./gdc-client download -m gdc_manifest.2020-11-13.txt 

查看样本生存情况(用临床数据)

./gdc-client download -m gdc_manifest.2020-11-13-clinical.txt -d xml/
#这里新建了一个xml目录用来存放xml格式的临床文件,把临床数据下载到这个指定目录

然后发现gdc没法用,是因为没有编译到环境变量里,只能在当前目录使用这个命令,所以来编译环境变量
在linux系统普通用户目录(cd /home/xxx)或root用户目录(cd /root)下,用指令ls -al可以看到4个隐藏文件
我使用的bio-linux系统,所以去cd /home/manager/下找

image.png
加入环境变量
echo 'export PATH=/home/manager/biotools/gdc-client' >> /home/manager/.bashrc 
source /home/manager/.bashrc 

但是接下来又出现一堆问题


image.png

查了发现biolinux用的是zsh而不是bash

echo $SHELL
image.png

接下来是令人崩溃的无数的踩坑填坑时间,没有遇到此类问题的朋友不用看这段废话了
然后应该是把命令加入./zshrc
但是继续往下发现问题越来越多
比如bash和zsh的比较啊安装完整版的oh-my-zsh啊啥的
不知不觉已经偏离最开始的目的很久了-。-
我只是想试试TCGA下载数据啊喂
作为退堂鼓十级表演艺术家我决定这个问题咱们先放一放……
切回普通的Ubuntu试试……
然后切回去也不是一帆风顺
我忘记了有一点
biolinux相当于人家已经配置好了
但我的没有
想用winscp传数据的时候被拒绝了
然后解决过程https://www.jianshu.com/p/fd2207970cf0
OK数据传输问题解决了于是我开始在Ubuntu上练习上述步骤
环境变量这步又出问题了——没有./bashrc这个隐藏文件夹???
解决办法……还在寻找中

4.查看生存情况

$ grep -i vital_status */*xml | grep -v Alive | wc
    290    3484  101636
$ grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc
    363     363    4719

相关文章

网友评论

      本文标题:用GDC-client下载TCGA数据

      本文链接:https://www.haomeiwen.com/subject/ctsbbktx.html