1.进入TCGA官网
https://portal.gdc.cancer.gov/
选择repository
根据需求勾选左侧的各种分类,一般先选cases,再选files image.png
勾选完成后点manifest
下载临床信息
不改变cases的选择,清空files,只勾选data category 中的clinical,和data format中的xml,同样下载manifest文件
在后续用下载得到的miRNA表达数据结合临床信息进行生存分析的时候有用
2.用winscp把文件传到Ubuntu虚拟机(或服务器)上
简略教程https://www.jianshu.com/p/42ce4d56c67e
3.Ubuntu虚拟机操作
从官网下载GDC-client
wget https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
#这里直接运行会有个报错我忘记下来了,大意就是说这个网站安全证书有问题问你要不要继续,如果继续的话运行另一行命令
#按照提示改成这样
wget --no-check-certificate https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
然后解压
unzip gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
根据提示查看使用方法
./gdc-client --help
./gdc-client download --help
从刚刚下载的manifest文件下载数据
./gdc-client download -m gdc_manifest.2020-11-13.txt
查看样本生存情况(用临床数据)
./gdc-client download -m gdc_manifest.2020-11-13-clinical.txt -d xml/
#这里新建了一个xml目录用来存放xml格式的临床文件,把临床数据下载到这个指定目录
然后发现gdc没法用,是因为没有编译到环境变量里,只能在当前目录使用这个命令,所以来编译环境变量
在linux系统普通用户目录(cd /home/xxx)或root用户目录(cd /root)下,用指令ls -al可以看到4个隐藏文件
我使用的bio-linux系统,所以去cd /home/manager/下找
加入环境变量
echo 'export PATH=/home/manager/biotools/gdc-client' >> /home/manager/.bashrc
source /home/manager/.bashrc
但是接下来又出现一堆问题
image.png
查了发现biolinux用的是zsh而不是bash
echo $SHELL
image.png
接下来是令人崩溃的无数的踩坑填坑时间,没有遇到此类问题的朋友不用看这段废话了
然后应该是把命令加入./zshrc
但是继续往下发现问题越来越多
比如bash和zsh的比较啊安装完整版的oh-my-zsh啊啥的
不知不觉已经偏离最开始的目的很久了-。-
我只是想试试TCGA下载数据啊喂
作为退堂鼓十级表演艺术家我决定这个问题咱们先放一放……
切回普通的Ubuntu试试……
然后切回去也不是一帆风顺
我忘记了有一点
biolinux相当于人家已经配置好了
但我的没有
想用winscp传数据的时候被拒绝了
然后解决过程https://www.jianshu.com/p/fd2207970cf0
OK数据传输问题解决了于是我开始在Ubuntu上练习上述步骤
环境变量这步又出问题了——没有./bashrc这个隐藏文件夹???
解决办法……还在寻找中
4.查看生存情况
$ grep -i vital_status */*xml | grep -v Alive | wc
290 3484 101636
$ grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc
363 363 4719
网友评论