SRA(Short Read Archive)数据在一个层次结构中。
NCBI BioProject:PRJN**** (比如PRJNA257197),是单个研究计划,可能包含多个样本和数据集。
NCBI BioSample: SAMN**** 或者SRS**** (比如SAMN03254300),每一个独立的样本都会被注册为一个BioSample,有独一无二的标签和属性。
SRA Experiment: SRX****,一个特定样本的序列库
SRA Run: SRR**** 或者ERR**** (比如SRR1553610),一个实验的数据集,含有多个样本Sample。
下载SRA数据
常用sratoolkit
fastq-dump下载fastq数据
#下载双端测序文件
fastq-dump --split-files SRR1553607
sam-dump下载sam文件
可以用ftp访问
所有的SRA数据在ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant中
#下载SRR1972739,得到SRR1972739.sra
wget -nc ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR197/SRR1972739
#再用fastq-dump进行转化为fastq,-X只提取前面10000个reads
fastq-dump -X 10000 --split-files SRR1972739.sra
数据下载地址
默认为~/ncbi/public/sra/
注意:即使设置仅下载10000 reads,仍然会全部下载完
下载SRA数据的常用思路
首先获得数据的PRJN号,再从中获取数据的SRR号,用fastq-dump下载
#使用esearch搜索,可见共891个样本
root:~# esearch -db sra -query PRJNA257197
#下载runinfo
esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.csv
#提取其中的SRR
cat runinfo.csv | cut -d, -f1 | grep SRR > ranids.txt
#进行下载
cat ranids.txt | parallel fastq-dump {}
当runinfo信息不足时,下载xml数据
esearch -db sra -query PRJNA257197 | efetch -format docsum > docsum.xml
cat docsum.xml | xtract -pattern DocumentSummary -element Bioproject,Biosample,Run@acc > xml.txt
网友评论