美文网首页RNA-Seq
SRA下载工具fastq-dump参数理解

SRA下载工具fastq-dump参数理解

作者: bioinfo2011 | 来源:发表于2017-07-31 21:24 被阅读0次

fastq-dump是常用用来下载NCBI原始测序SRA数据的工具,但是它的参数也是比较杂乱,我根据查到的数据说下我的体会

--outdir    <File_name>         # 输出文件夹名

--gzip                                    # 使用gzip压缩结果 (目的是减少占用硬盘大小)

--skip-technical                    #  只输出biological reads,不然会technical reads输出,而technical reads不是我们想要的

--split-files                            #  把pair-end测序分成两个文件输出

--fasta      <interger>            # 直接输出fasta格式,且每行的字符数是<interger>

--readids                              #  在每个reads的名字后面加上后缀 .1 和 .2,用于区分 pair-end 测序中的一对reads

--origfmt                               # 显示原始格式,便于追踪来源,同时可以显示长度信息

--dumpbase                        # 确保输出的是A, T, C, G (对于SOLiD测序会输出颜色,其他这个参数是默认的)

--offset      <interger>         # 对早期的数据进行转化 (默认是33,不要乱改)

--minSpotId     <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--maxSpotId    <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--minReadlen  <interger>    # 过滤短reads

--clip                                      #去除标签

--aligned                               #只输出能align到human genome上的

--read-filter      "pass"           #去除全是N的reads

--stout                                   #直接把结果输出到屏幕上

别忘了加最后一个参数,就是数据名称 SRRxxxxxxxxxx

经典的代码是

fastq-dump  --outdir file_name  --gzip  --skip-technical   --readids  --read-filter  pass  --dumpbase --split-files  --clip   SRR_ID

参考自      https://edwards.sdsu.edu/research/fastq-dump

相关文章

网友评论

    本文标题:SRA下载工具fastq-dump参数理解

    本文链接:https://www.haomeiwen.com/subject/vitdlxtx.html