美文网首页生物信息学习RNA 转录组学TranscriptomicsNGS
RNASeq分析系列--使用STAR软件进行比对

RNASeq分析系列--使用STAR软件进行比对

作者: 正踪大米饭儿 | 来源:发表于2018-12-13 11:09 被阅读11次

    STAR 软件由于其敏感的比对特性,因此在转录组 SNP Calling 过程中使用较多。

    1. 下载安装

    对于 Ubuntu 系统:

    $ sudo apt-get update
    $ sudo apt-get install g++
    $ sudo apt-get install make
    

    对于Red Hat, CentOS, Fedora 系统:

    $ sudo yum update
    $ sudo yum install make
    $ sudo yum install gcc-c++
    $ sudo yum install glibc-static
    

    2. 使用说明

    一般使用 2-pass 模式进行比对,获得更准确的剪切信息。步骤如下:

    2.1 建立 1-pass-index

    STAR --runMode genomeGenerate  
         --runThreadN 16
         --sjdbOverhang 149 
         --sjdbGTFfile zma.gtf 
         --genomeFastaFiles genome.fa
         --genomeDir /path/to/star-1-index 
    2>log
    

    2.2 运行第一步比对

    STAR --runMode alignReads
         --runThreadN 8 
         --readFilesCommand zcat 
         --genomeDir  /path/to/star-1-index 
         --outFileNamePrefix /path/to/star-1-pass/sampleA 
         --sjdbGTFfile zma.gtf  
         --outSAMmapqUnique 255   ## 设置唯一比对,用于GATK
         --outSAMtype BAM SortedByCoordinate
         --outBAMsortingThreadN 8 
         --readFilesIn sampleA.R1.fq.gz sampleA.R2.fq.gz  
          --outFilterMismatchNmax 10
         --outFilterMultimapNmax 20
         --alignIntronMin 21 
         --alignIntronMax 0
         --alignSJoverhangMin 8 
         --alignSJDBoverhangMin 3 
         --alignMatesGapMax 0
    2>log
    

    2.3 运行 2-pass-index

    STAR --runMode genomeGenerate 
         --runThreadN 16
         --sjdbOverhang 149
         --sjdbGTFfile zma.gtf
         --genomeFastaFiles genome.fa
         --genomeDir /path/to/star-2-index
         --sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab 
    2>log
    

    2.4 运行 2-pass-align

    STAR --runMode alignReads
         --runThreadN 8 
         --readFilesCommand zcat 
         --outSAMmapqUnique 255 
         --outSAMtype BAM SortedByCoordinate 
         --genomeDir /path/to/star-2-index
         --sjdbGTFfile zma.gtf
         --readFilesIn  sampleA.R1.fq.gz sampleA.R2.fq.gz
         --sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab
         --outFilterMismatchNmax 10
         --outFilterMultimapNmax 20
         --alignIntronMin 21 
         --alignIntronMax 0
         --alignSJoverhangMin 8 
         --alignSJDBoverhangMin 3 
         --alignMatesGapMax 0
         --outFileNamePrefix /path/to/star-2-pass/sampleA
    

    2.5 SJ.out.tab 文件意义

    生成的 SJ.out.tab 文件为 Tab 分隔符,每一列意义如下:

    column 1: chromosome
    column 2: rst base of the intron (1-based)
    column 3: last base of the intron (1-based)
    column 4: strand (0: undened, 1: +, 2: -)
    column 5: intron motif: 0: non-canonical; 1: GT/AG, 2: CT/AC, 3: GC/AG, 4: CT/GC, 5:AT/AC, 6: GT/AT
    column 6: 0: unannotated, 1: annotated (only if splice junctions database is used)
    column 7: number of uniquely mapping reads crossing the junction
    column 8: number of multi-mapping reads crossing the junction
    column 9: maximum spliced alignment overhang
    

    3 GATK 数据预处理

    第二步完成后的 bam 文件仍然无法直接用于 GATK 的变异检测,还需要增加一些操作步骤,请参考 GTAK Call SNP/Indel 流程。

    相关文章

      网友评论

        本文标题:RNASeq分析系列--使用STAR软件进行比对

        本文链接:https://www.haomeiwen.com/subject/havbqqtx.html