美文网首页
2020-01-21 测序数据的质控和过滤

2020-01-21 测序数据的质控和过滤

作者: xiaoguolaile | 来源:发表于2020-01-21 15:50 被阅读0次

    二代测序数据下机后一般为rawdata,这时候含有一些低质量测序数据和街头污染数据,我们要将低质量数据过滤掉获得cleandata用于后续分析;

    本过程涉及到的软件

    Fastqc(用于测序数据质控),
    MultiQC(用于质控结果整合和解读)
    Trimmomatic(用于测序数据修剪和过滤)

    软件说明文档地址:

      Fastqc:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/  (依赖java)
       '''安装:conda install -c bioconda fastqc'''
    
      MultiQC:https://multiqc.info/  (依赖python 2.7或3.6都可以)
     '''安装:conda install -c bioconda -c conda-forge multiqc'''
    
      Trimmomatic:http://www.usadellab.org/cms/index.php?page=trimmomatic
      '''安装:conda install -c bioconda Trimmomatic'''
    

    利用fastqc对测序数据进行质控

    fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN
    
           -o      用来指定输出文件的所在目录,生成的报告的文件名是根据输入来定的,注意是不能自动新建目录的。
                    输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩。
    
            -f      用来强制指定输入文件格式,默认自动检测。
    
            --(no)extract 输出结果是.gzip文件,默认是自动解压缩
    
              -c      污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,
                    “#”开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析。
    
              -q      会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况,即不出现下面的提示:
                                 Startedanalysis of target.fq
                                Approx5% complete for target.fq
                                Approx10% complete for target.fq
    

    fastqc运行结果图:


    image.png

    运行结束后,每个fq.gz文件会产生两个文件,一个是zip压缩文件,一个是html文件,将所有样品的文件转移到新的文件夹中。
    如,可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中。

    mkdir fastqc          ##新建一个fastqc文件夹
     mv *.zip ./fastqc/      ##将所有zip结尾的文件转移到新建的fastqc文件夹中
     mv *.html ./fastqc/   ##将所有html结尾的文件转移到新建的fastqc文件夹中
    

    利用multiQC整合fastqc数据质控结果

     cd ./fastqc/             ##进入新建的fastqc文件夹(包含了所有的质控结果文件,包括html和zip)
         multiqc ./                  ##运行multiqc整合质控结果会产生两个新的文件,multiqc_report.html文件和multiqc_data文件夹
           #通过html文件就可以查看结果了                            
    
    image.png image.png

    根据multiqc整合结果分析测序数据质量

    利用 Trimmomatic对数据进行修剪

    从上图可以看出,前15个碱基含量分布异常,
    因此我们要将前15个碱基修剪掉,同时过滤掉低质量数据()

    trimmomatic  PE  -threads 12  AA_1B_1.fq.gz AA_1B_2.fq.gz  \
     AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz \
     AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz \
    HEADCROP:15 MINLEN:50 TOPHRED33
    
    ##PE是pair-end
    ## -threads 12 使用12线程
    ## AA_1B_1.fq.gz AA_1B_2.fq.gz两个输入文件PE
    ## AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz      R1输出文件,P为保留的paired内容,U为unpaired内容,P可以看做PE的cleandata了
    ## AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz      R2输出文件,P为保留的paired内容,U为unpaired内容
    ## HEADCROP:15 :切掉5‘端15bp
    ##MINLEN:50 :过滤掉修剪完成后长度小于50的序列
    ##TOPHRED33:将质量值转换为PHRED33
    

    相关文章

      网友评论

          本文标题:2020-01-21 测序数据的质控和过滤

          本文链接:https://www.haomeiwen.com/subject/fryezctx.html