STAR 软件由于其敏感的比对特性,因此在转录组 SNP Calling 过程中使用较多。
1. 下载安装
对于 Ubuntu 系统:
$ sudo apt-get update
$ sudo apt-get install g++
$ sudo apt-get install make
对于Red Hat, CentOS, Fedora 系统:
$ sudo yum update
$ sudo yum install make
$ sudo yum install gcc-c++
$ sudo yum install glibc-static
2. 使用说明
一般使用 2-pass 模式进行比对,获得更准确的剪切信息。步骤如下:
2.1 建立 1-pass-index
STAR --runMode genomeGenerate
--runThreadN 16
--sjdbOverhang 149
--sjdbGTFfile zma.gtf
--genomeFastaFiles genome.fa
--genomeDir /path/to/star-1-index
2>log
2.2 运行第一步比对
STAR --runMode alignReads
--runThreadN 8
--readFilesCommand zcat
--genomeDir /path/to/star-1-index
--outFileNamePrefix /path/to/star-1-pass/sampleA
--sjdbGTFfile zma.gtf
--outSAMmapqUnique 255 ## 设置唯一比对,用于GATK
--outSAMtype BAM SortedByCoordinate
--outBAMsortingThreadN 8
--readFilesIn sampleA.R1.fq.gz sampleA.R2.fq.gz
--outFilterMismatchNmax 10
--outFilterMultimapNmax 20
--alignIntronMin 21
--alignIntronMax 0
--alignSJoverhangMin 8
--alignSJDBoverhangMin 3
--alignMatesGapMax 0
2>log
2.3 运行 2-pass-index
STAR --runMode genomeGenerate
--runThreadN 16
--sjdbOverhang 149
--sjdbGTFfile zma.gtf
--genomeFastaFiles genome.fa
--genomeDir /path/to/star-2-index
--sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab
2>log
2.4 运行 2-pass-align
STAR --runMode alignReads
--runThreadN 8
--readFilesCommand zcat
--outSAMmapqUnique 255
--outSAMtype BAM SortedByCoordinate
--genomeDir /path/to/star-2-index
--sjdbGTFfile zma.gtf
--readFilesIn sampleA.R1.fq.gz sampleA.R2.fq.gz
--sjdbFileChrStartEnd /path/to/star-1-pass/SJ.out.tab
--outFilterMismatchNmax 10
--outFilterMultimapNmax 20
--alignIntronMin 21
--alignIntronMax 0
--alignSJoverhangMin 8
--alignSJDBoverhangMin 3
--alignMatesGapMax 0
--outFileNamePrefix /path/to/star-2-pass/sampleA
2.5 SJ.out.tab 文件意义
生成的 SJ.out.tab 文件为 Tab 分隔符,每一列意义如下:
column 1: chromosome
column 2: rst base of the intron (1-based)
column 3: last base of the intron (1-based)
column 4: strand (0: undened, 1: +, 2: -)
column 5: intron motif: 0: non-canonical; 1: GT/AG, 2: CT/AC, 3: GC/AG, 4: CT/GC, 5:AT/AC, 6: GT/AT
column 6: 0: unannotated, 1: annotated (only if splice junctions database is used)
column 7: number of uniquely mapping reads crossing the junction
column 8: number of multi-mapping reads crossing the junction
column 9: maximum spliced alignment overhang
3 GATK 数据预处理
第二步完成后的 bam 文件仍然无法直接用于 GATK 的变异检测,还需要增加一些操作步骤,请参考 GTAK Call SNP/Indel 流程。
网友评论