美文网首页RNA-Seq
SRA下载工具fastq-dump参数理解

SRA下载工具fastq-dump参数理解

作者: bioinfo2011 | 来源:发表于2017-07-31 21:24 被阅读0次

    fastq-dump是常用用来下载NCBI原始测序SRA数据的工具,但是它的参数也是比较杂乱,我根据查到的数据说下我的体会

    --outdir    <File_name>         # 输出文件夹名

    --gzip                                    # 使用gzip压缩结果 (目的是减少占用硬盘大小)

    --skip-technical                    #  只输出biological reads,不然会technical reads输出,而technical reads不是我们想要的

    --split-files                            #  把pair-end测序分成两个文件输出

    --fasta      <interger>            # 直接输出fasta格式,且每行的字符数是<interger>

    --readids                              #  在每个reads的名字后面加上后缀 .1 和 .2,用于区分 pair-end 测序中的一对reads

    --origfmt                               # 显示原始格式,便于追踪来源,同时可以显示长度信息

    --dumpbase                        # 确保输出的是A, T, C, G (对于SOLiD测序会输出颜色,其他这个参数是默认的)

    --offset      <interger>         # 对早期的数据进行转化 (默认是33,不要乱改)

    --minSpotId     <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

    --maxSpotId    <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

    --minReadlen  <interger>    # 过滤短reads

    --clip                                      #去除标签

    --aligned                               #只输出能align到human genome上的

    --read-filter      "pass"           #去除全是N的reads

    --stout                                   #直接把结果输出到屏幕上

    别忘了加最后一个参数,就是数据名称 SRRxxxxxxxxxx

    经典的代码是

    fastq-dump  --outdir file_name  --gzip  --skip-technical   --readids  --read-filter  pass  --dumpbase --split-files  --clip   SRR_ID

    参考自      https://edwards.sdsu.edu/research/fastq-dump

    相关文章

      网友评论

        本文标题:SRA下载工具fastq-dump参数理解

        本文链接:https://www.haomeiwen.com/subject/vitdlxtx.html