美文网首页RNA-seq走进转录组
转录组分析——三、sra转换成fastq

转录组分析——三、sra转换成fastq

作者: A西方不亮东方亮 | 来源:发表于2021-03-26 23:33 被阅读0次

    一、背景知识

    1、sra数据

    sra数据是SRA数据库用于储存二代测序数据的原始数据的一种压缩格式,这种数据格式不能直接进行处理,需要转换成fastq才能进行质控以及去adapt等处理——相当于解压缩!!!

    2、fastq文件(简称fq文件)

    高通量测序得到的原始图像数据文件,经过碱基识别(base calling)分析转化为原始测序序列(sequenced reads),称之为raw data或raw reads,结果以fastq(简称fq)文件格式存储

    3、fastq-dump

    需要的命令:fastq-dump
    命令的来源:sra-tools
    fastq-dump的参数

    1. --gzip 将转换出的fastq文件以gz格式输出,可以节省空间
    2. --split-3 把pair-end测序分成两个文件输出
    3. -X 拆分出指定的reads数目,默认拆分所有reads,一个read就是fastq的四行数据(老师为了上课测试,设置25000条reads,真实数据不需要加这个参数!!!)
    4. -O 输出文件夹名

    二、转换过程

    #定义存放输出数据的文件夹,需要先创建这个文件夹‘fastq’
    mkdir fastq
    fqdir=/trainee2/Mar7/rna/project/fastq
    #转换单个文件
    fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
    #批量转换,将样本名写成文件——sample.ID,echo是打印命令,while循环的意义是生成脚本
    cat sample.ID | while read id
    do
     echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
    done >sra2fq.sh
    # 提交后台运行命令,脚本文件后缀为.sh,日志文件后缀为.log,运行脚本的命令为sh
    nohup sh sra2fq.sh>sra2fq.log &
    
    此处不是报错,只是系统反馈 输出的文件

    输入一个文件,输出两个gz压缩文件(因为是双端测序,1和2分别表示第一段测序结果和第二段测序结果)


    批量转换,注意done后面有空格!!!
    #查看输出的fastq的gz压缩文件,用zless命令
    zless -S SRR1039510_1.fastq.gz
    
    fastq文件内容

    相关文章

      网友评论

        本文标题:转录组分析——三、sra转换成fastq

        本文链接:https://www.haomeiwen.com/subject/gbmshltx.html