比对软件STAR使用说明
Spliced Transcripts Alignment to a Reference,即STAR,适用于转录组比对的软件。STAR源自ENCODE project,无论是进行Calling variants by RNAseq data还是转录本定量,都有不俗的表现。
构建索引
STAR
-- runThreadN 8 \ #设置线程数
-- runMode genomeGenerate \ #基因组模式
-- genomeDir / index_Dir / \ #index输出路径
-- genomeFastaFiles genome .fa \ #参考基因组序列
-- sjdbGTFfile genome.gtf \ #参考基因组注释文件
-- sjdbOverhang ReadLength-1 #默认100,即ReadLength减去1,大部分情况下100就会有很好的结果,保持默认即可
# 如果是gff3,可使用--sjdbGTFtagExonParentTranscript参数
# STAR可以分别使用ENSEMBL和GENCODE的基因组数据,如fasta序列和gff文件,但是两个不能混在一起使用
比对
基本命令
STAR \
-- genomeDir index_dir / \ #index文件夹
-- sjdbGTFfile genome.gtf \
-- runThreadN 2 \
-- readFilesIn f1.fq.gz f2.fq.gz
-- readFilesCommand
如果读取压缩文件,可以选择此参数
-- outSAMtype
输出SAM或者BAM文件,可以选择sort或者unsort,如--outSAMtype BAM Unsorted
或者-- outSAMtype BAM SortedByCoordinate
-- outFileNamePrefix
输出文件名的前缀
-- outSAMmapqUnique
如果后续想用GATK进行分析,可用此参数
输出文件/分析类型
transcript coordinates 可以通过--quantMode TranscriptomeSAM
的得到,生成的Aligned.toTranscriptome.out.bam文件可以用RSEM或者eXpress统计丰度
count数统计 可以用--quantMode GeneCounts
参数实现counts计数,--quantMode TranscriptomeSAM GeneCounts
可以同时得到转录本bam文件和counts
网友评论