1. 介绍
- Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合
- 一般常用于下载SRA文件,从SRA文件中提取fastq,sam文件,查看SRA文件信息等
2. 安装
这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装
2.1 Conda 安装
conda install -y sra-tools
这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解
2.2 传统安装
下载
下载地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下载地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
在Linux系统(以CentOS为例)下将上述的链接下载到本地
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6-1/sratoolkit.2.9.6-1-centos_linux64.tar.gz
解压
gunzip -c sratoolkit.2.9.6-1-centos_linux64.tar.gz | tar xf -
设置环境变量
所有的可执行文件均在
sratoolkit.2.9.6-1-centos_linux64/bin
目录下环境变量添加的详细方法:Linux 添加环境变量的五种方法
- 打开环境变量设置文件
sudo vim /etc/environment
- 添加软件 bin 目录的路径,并用
:
隔开
- 执行source命令,使配置立即生效
sudo source /etc/enviroment
3. 使用
官方文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
3.1 下载SRA
https://github.com/ncbi/sra-tools/wiki/HowTo:-Access-SRA-Data
下载单个文件
prefetch SRR390728
下载多个文件
prefetch cart_0.krt
3.2 抽取fastq文件
fastq-dump --split-3 SRR893046 -O fastq
注意:NCBI其实已经更新了一个多线程抽取工具fasterq-dump
,可以在sratools的bin目录里找到,但是文档没有写,没有特殊需求的话,可以考虑直接用新工具替代。
这个fasterq-dump
与fastq-dump
相比,就像动车碾压绿皮火车,用法如下:
fasterq-dump --split-3 SRR893046 -O fastq
网友评论