fastq-dump是常用用来下载NCBI原始测序SRA数据的工具,但是它的参数也是比较杂乱,我根据查到的数据说下我的体会
--outdir <File_name> # 输出文件夹名
--gzip # 使用gzip压缩结果 (目的是减少占用硬盘大小)
--skip-technical # 只输出biological reads,不然会technical reads输出,而technical reads不是我们想要的
--split-files # 把pair-end测序分成两个文件输出
--fasta <interger> # 直接输出fasta格式,且每行的字符数是<interger>
--readids # 在每个reads的名字后面加上后缀 .1 和 .2,用于区分 pair-end 测序中的一对reads
--origfmt # 显示原始格式,便于追踪来源,同时可以显示长度信息
--dumpbase # 确保输出的是A, T, C, G (对于SOLiD测序会输出颜色,其他这个参数是默认的)
--offset <interger> # 对早期的数据进行转化 (默认是33,不要乱改)
--minSpotId <interger> # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)
--maxSpotId <interger> # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)
--minReadlen <interger> # 过滤短reads
--clip #去除标签
--aligned #只输出能align到human genome上的
--read-filter "pass" #去除全是N的reads
--stout #直接把结果输出到屏幕上
别忘了加最后一个参数,就是数据名称 SRRxxxxxxxxxx
经典的代码是
fastq-dump --outdir file_name --gzip --skip-technical --readids --read-filter pass --dumpbase --split-files --clip SRR_ID
网友评论