fastq-dump并行版pfastq-dump的使用

作者: dulunar | 来源:发表于2018-09-05 10:48 被阅读133次

fastq-dump转换SRA文件到fastq文件很慢,并行版本成为趋势;

无论怎么换,先要打好基础,使用并行版本的前提是要保证NCBI的fastq-dump可以在服务器上正常运行。

首先安装Sratoolkit的最新版(v.2.9.2):

mkdir -p /path-to-Sratoolkit/ && cd /path-to-Sratoolkit/

wget  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz && \

tar zxfv sratoolkit.2.9.2-ubuntu64.tar.gz&& \

mv sratoolkit.2.9.2-ubuntu64/* . && \ rm -rf sratoolkit.2.9.2-ubuntu64.tar.gz sratoolkit.2.9.2-ubuntu64


下载pfastq-dump:

git clone https://github.com/inutano/pfastq-dump && \

cd pfastq-dump && \

chmod a+x bin/pfastq-dump && \

ln -s bin/pfastq-dump  /path-to-Sratoolkit/bin


把安装的路径加入到账号下的$PATH中:

echo 'PATH=/home/luna/Desktop/Software/Sratoolkit/bin:$PATH' >> ~/.bashrc && \

cp ~/.bashrc ~/.bash_profile && \

source ~/.bashrc ~/.bash_profile


使用pfastq_dump,因为pfastq_dump是基于fastq_dump写的一个bash程序,所以参数是相同的:

对于单端数据转换,转换后文件是fq.gz:

for id in *sra;    do pfastq-dump --threads 10 ./$id --gzip;    done 

对于双端数据转换,转换后文件是fq.gz:

for id in *sra;        do pfastq-dump  --threads 8 ./$id --split-3 --gzip;    done 


直接用sra号下载并解压fastq文件,但是推荐下载好文件再使用fastq_dump转换,且文件后缀是.sra(请注意):

单端数据:

for id in SRR799545  SRR799544;    do pfastq-dump --threads 10 -s $id --gzip;    done

双端数据:

for id in SRR799545  SRR799544;    do pfastq-dump --threads 10 -s $id --split-3 --gzip;    done


经过测试,其实也不是那么的快啊!!很揪心!

相关文章

网友评论

  • Hypdoctor:如果文件多的话可以尝试parallel命令,虽然fastq-dump是单核的,但是可以多个文件并行处理,比循环灵活。
    dulunar:你好,有没有具体的链接,我去学习一下
    谢谢

本文标题:fastq-dump并行版pfastq-dump的使用

本文链接:https://www.haomeiwen.com/subject/gqqepftx.html