以下内容主要参考了简书教程:https://www.jianshu.com/p/0694fcb77157
什么是 SRA?
sra数据就是NCBI网站上能够下载到的二代测序的原始数据。
官网上(https://www.ncbi.nlm.nih.gov/sra)给出的解释:
Sequence Read Archive (SRA) data, available through multiple cloud providers and NCBI servers, is the largest publicly available repository of high throughput sequencing data. The archive accepts data from all branches of life as well as metagenomic and environmental surveys. SRA stores raw sequencing data and alignmentinformation to enhance reproducibility and facilitate new discoveries through data analysis.
如何从NCBI上下载SRA ?
首先要搜索你要找的物种的SRA数据:
在NCBI官网上搜索,第一个搜索框选择SRA,第二个搜索框输入要查询的物种名,或是科名、属名等
如果有搜索结果,点进去之后可以看到如上图的内容,介绍一些基本信息,我们关注的是上图的SRR12528003这个号码,下载数据的使用需要使用。
1 使用sra-tools下载
sra-tools是NCBI官网提供的软件:
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
用conda安装sra-tools的方法在网站:https://bioconda.github.io/recipes/sra-tools/README.html
安装命令很简单:
conda install sra-tools
安装完成后,如果只是下载单个数据:
prefetch SRR1482463 -O /lustre/home/liruyuan/data
#SRR是要下载的数据的下载号,-O后面是输出的路径,也就是你要把下载的数据放在哪里
如果是下载批量数据:
prefetch -O /lustre/home/liruyuan/data --option-file SRR_Acc_List.txt
#-O后面是输出的路径,SRR_Acc_List.txt里面是所有要下载数据的下载号
其他的功能可以用prefetch -h查看
下载成功后往往需要把SRA数据转化为fastq格式,用到的命令是:
fastq-dump --gzip --split-files SRR12095144.sra
#有的时候用命令fastq-dump --gzip --split-files SRR12095144,即去掉.sra才正常运行,我也不知道为什么
2 使用wget下载数据
使用的命令是:
wget -c -t 0 -O /lustre/home/liruyuan/ncbidownload/SRR1945415 https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1945415/SRR1945415.1 --no-check-certificate
#-O /lustre/home/liruyuan/ncbidownload/SRR1945415是输出路径,https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1945415/SRR1945415.1是下载网址,可以在NCBI上查到,如果已经已经安装了sra-tools,也可以用下面的命令行查到:
srapath SRR1945415
网友评论