- 1 生成sam文件
bwa,bowie2,tophat2等。输入数据为fasta格式,作为比对参考序列;fastq格式的测序数据,也就是将测序数据比对回参考序列上。
samtools
- 2 文件验证
samtools quickcheck
- 3 sam和bam格式转换
samtools view
- 4 bam排序
默认的输出文件中,是按照比对的reads顺序进行排序的,而分析需要按照染色体坐标位置排序,所以,每一次都需要对bam进行排序,如果不排序,后续的操作都无法进行,还是同样的原理,边比对边排序消耗资源太大,所以,是在比对后进行排序。现在的samtools工具可以排序与转换同步进行。一般排序后的文件都加上扩展名sorted,表示经过排序了。
samtools sort
-
5 建立索引
处理大文件都需要一个索引,索引的作用是可以快速定位到文件的任意位置,因此,建立索引,也是bam文件的重要功能,而建立索引,必须是排序后的bam文件。所以,拿到一个比对好的sam之后,基本处理就是排序,格式转换,建立索引。
samtools index -
6 统计
samtools stats
- 7 reads比对情况
samtools flags
samtools flagstat
-
8 idxstats
单独计算每一条染色体的比对情况, -
9 统计目标区域
则可以给定一个目标区域bed格式文件,使用bedcov进行统计。 -
10 depth统计
计算测序深度depth,samtools depth -
11 统计bam并绘图
samtools stats
plot-bamstats -
12 过滤数据
将没有或成功比对上的reads输出
samtools view功。-f与-F选项
-
13 输出比对fq或fa
samtools fastq可以直接输出fastq格式,、数据可以直接进行拼接,samtools fasta直接输出fasta,可以直接进行blastn比对。 -
14 tview
查看每个位点的细节 -
15 tablet 可视化
tablet可以可视化bam文件 -
16 MarkDuplication
Dupliacation reads会对变异检测造成干扰,得到一些假阳性的结果,因此,需要将这些reads去除掉。可以在比对之后进行标记。这一步骤只是在每一行比对结尾出添加一些CIGAR标志,并不过滤数据。samtools可以标记Duplication,也可以去除掉reads,GATK也可以进行标记。 -
17 利用bcftools/freebayes/GATK进行SNP检测
可以使用bcftools直接来筛选SNP,输入排序并建立索引的bam即可,如果能做Mark Duplication则更好了。 -
18 利用delly/lumpy/进行SV检测
-
19 利用IGV可视化数据
IGV工具可以可视化bam格式,fasta格式,vcf格式,bed格式
网友评论