SRA下载工具fastq-dump参数理解

作者: bioinfo2011 | 来源:发表于2017-07-31 21:24 被阅读0次

fastq-dump是常用用来下载NCBI原始测序SRA数据的工具，但是它的参数也是比较杂乱，我根据查到的数据说下我的体会

--outdir <File_name> # 输出文件夹名

--gzip # 使用gzip压缩结果（目的是减少占用硬盘大小）

--skip-technical # 只输出biological reads，不然会technical reads输出，而technical reads不是我们想要的

--split-files # 把pair-end测序分成两个文件输出

--fasta <interger> # 直接输出fasta格式，且每行的字符数是<interger>

--readids # 在每个reads的名字后面加上后缀 .1 和 .2，用于区分 pair-end 测序中的一对reads

--origfmt # 显示原始格式，便于追踪来源，同时可以显示长度信息

--dumpbase # 确保输出的是A, T, C, G （对于SOLiD测序会输出颜色，其他这个参数是默认的）

--offset <interger> # 对早期的数据进行转化（默认是33，不要乱改）

--minSpotId <interger> # 输出从minSpotId到maxSpotId的reads，一个spot可能包含多个reads (多数情况会相等)

--maxSpotId <interger> # 输出从minSpotId到maxSpotId的reads，一个spot可能包含多个reads (多数情况会相等)

--minReadlen <interger> # 过滤短reads

--clip #去除标签

--aligned #只输出能align到human genome上的

--read-filter "pass" #去除全是N的reads

--stout #直接把结果输出到屏幕上

别忘了加最后一个参数，就是数据名称 SRRxxxxxxxxxx

经典的代码是

fastq-dump --outdir file_name --gzip --skip-technical --readids --read-filter pass --dumpbase --split-files --clip SRR_ID

网友评论

本文标题：SRA下载工具fastq-dump参数理解

本文链接：https://www.haomeiwen.com/subject/vitdlxtx.html

SRA下载工具fastq-dump参数理解