SAM文件格式介绍

作者: 我是爱哭虫小鱼 | 来源:发表于2020-03-02 10:59 被阅读0次

SAM文件格式介绍
SAM文件格式
NGS常用文件格式详解
samtools 工具处理SAM文件
sam文件格式说明
理解SAM文件格式以及过滤sam文件
Sam/Bam文件格式详解
MAPQ
SAMtools: SAM格式的处理利器
SAM, Sequence Alignment/Map form

image

SAM 是sequence alignment format [http://samtools.github.io/hts-specs/SAMv1.pdf]的缩写，BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。

SAM 文件的结构

SAM格式文件包括头部注释部分和比对结果部分，头部分为''可选部分''。头部分位于比对部分之前，以“@”开头。比对部分有11列是固定的，其他多列可选。看如下例子：

 @HD     VN:1.0  SO:unsorted     #VN版本，比对有无sorted

@SQ     SN:17   LN:83257441    ##SQ：参考序列目录。SN：参考序列名字。LN：参考序列长度

 @PG     ID:hisat2       PN:hisat2       VN:2.1.0        CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC    ##PG：program 。 ID：program record identifier 。 VN：程序版本。CL：command line

 0       16      17      805144  60      39M     *       0       0       GTGCCAGGGGAACTCCCGGCAGTCCTCGTCGTTCAGCAC IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII AS:i:0  Z:39    YT:Z:UU NH:i:1

头部注释部分

@HD：说明VN的版本以及比对有无排列顺序，这个例子没有排序。
@SQ：参考序列目录。SN：参考序列名字。LN：参考序列长度。
@PG：使用的比对程序名，这个例子是hisat2

比对结果部分

比对结果部分每行标示一个read与参考序列的比对信息，前11列为必须字段，顺序固定。其余列是可选字段。前11列如下解释：

第一列Query Name：read的名称，即片段的编号。
第二列FLAG：如果不是以下数字中的一个，则是一下数据某几个的和
- 1：标示对应的二进制为01，标示read有多个测序数据，一般理解为有双端测序数据，另一条没有过滤掉；
- 2：二进制为10，标示read的多个片段都有比对结果，双端的read都比对上了；
- 4：表示这条read没有比对上；
- 8：标示下一条read没有比对上；
- 16：表示这条read的反向比对上了；
- 32：表示这条read的下一条的反向没有比对上；
- 64：表示样本中第一个片段；
- 128：表示样本中最后一条片段；
- 256：表示第二次比对；
- 512：表示比对的质量不合格；
- 1204：表示read是pcr或光学副本产生的；
- 2048：表示辅助比对结果；


>Bit Description

 1 0x1   template having multiple segments in sequencing

 2 0x2   each segment properly aligned according to the aligner

 4 0x4   segment unmapped

 8 0x8   next segment in the template unmapped

 16 0x10   SEQ being reverse complemented

 32 0x20   SEQ of the next segment in the template being reverse complemented

 64 0x40   the first segment in the template

 128 0x80   the last segment in the template

 256 0x100   secondary alignment

 512 0x200 not passing filters, such as platform/vendor quality controls

 1024 0x400 PCR or optical duplicate

 2048 0x800 supplementary alignment

第三列Reference Name：参考序列的名称，或者比对到参考序列上的染色体号。比对不上为*
第四列Position：比对上的位置，从1开始计数（顺着链的方向从1数起，哪个位置开始匹配）。没有比对上为0；
第五列Mapping Quality：比对的质量分数，越高表示比对的越准确。

第六列CIGAR：表示比对的结果。

* M：表示match或mismatch

* I：表示插入

* D：表示删除

* N：表示skipped，跳过这段区域

* S：表示被剪切的序列存在于序列中

* H：表示被剪切的序列不存在于序列中

* P：表示padding（填补）

* =：表示match

* X：表示mismatch（错配，位置是一一对应的）

第七列RNEXT：表示下一个片段比对上的参考序列的编号，比对不上用’*‘，该片段和下一个片段比对上同一个参考片段，用’=‘；
第八列PNEXT：表示下一个片段比对上的位置，如果不可用，此处为0；
第九列TLEN：表示Template的长度。如果第八列大于第四列，则为正数，否则负数。
第十列SEQ：表示序列片段的序列信息，（注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度），表示read的碱基序列，如果是比对到互补链上则是反转互补序列。
第十一列QUAL：表示read的质量，用ASCII编码表示。