今天我肯定会学其他的,但是在这之前,我先说一下TCGA数据库data下载的问题。
关于下载的方法,我稍微了解了一下,有很多种,但是我还是觉得以下的方法最简单。就是在UCSC Xena上下载。
![](https://img.haomeiwen.com/i5011192/1d12c12370502ff9.png)
首先就是这个界面,进入datasets
![](https://img.haomeiwen.com/i5011192/effaf6b5b2f26ea6.png)
可以看到都分类好了,需要什么点进去下载即可
比如:
![](https://img.haomeiwen.com/i5011192/515d4b6b9f209d28.png)
![](https://img.haomeiwen.com/i5011192/83ff7b3050b62870.png)
找到download,然后把地址wget一下就行了
最后说一下批量下载的问题
比如我想下载各种癌症的RNAseqcounts的数据
首先可以看一下下载的链接有什么规律
![](https://img.haomeiwen.com/i5011192/7de7cbdfb0e1d589.png)
就先看这4个不同癌症的RNAseq的counts下载的链接
除了对应的癌症名称不同外,其他的都一样
所以可以写一个shell脚本批量下载
先建一个名称几个的文件
![](https://img.haomeiwen.com/i5011192/693df8938f5309f1.png)
然后写一个shell脚本
#!/bin/bash
for i in $(cat temp.txt)
do
echo $i
wget https://gdc.xenahubs.net/download/TCGA-{$i}/Xena_Matrices/TCGA-{$i}.htseq_counts.tsv.gz
done
终端运行一下就行了
其他的以此类推
最后还想说一下,本来不想用shell脚本的,因为确实不是特别擅长,但我python用的比较熟练,可是python脚本里面用一些shell的命令要调用subprocess的包,比较麻烦,所以shell还是也学学吧。
网友评论