介绍
sam 文件是Sequence Alignment/Map Format的简写,产生于比对之后的数据输出,记录了比对的具体情况。是我们在生物信息学习和操作过程中经常遇到的文件。
但是sam文件很大还需要借助工具才能查看里面的内容,而且里面的内容也很复杂。
samtools view file.sam | less -S
sam文件内容详解
@HD VN:1.6 SO:coordinate
@SQ SN:ref LN:1000
@PG ID:minimap2 PN:minimap2 VN:2.17-r941-dirty
read1 0 ref 10 60 5S5M = 100 95 TTAGG IIIII NM:i:0
read2 0 ref 20 60 10M = 100 80 TAGCT IIIII NM:i:1
解析
SAM 文件由多行组成,每一行代表一个比对结果。每行中的列用制表符(\t)分隔。
@HD: 文件头信息,描述文件的版本和排序顺序。
@SQ: 参考序列信息,包括序列名称和长度。
@PG: 比对工具的相关信息。
每行的其他字段表示一个比对结果:
read1,read2: 读取序列的名称。
0: FLAG 字段,表示比对的一些属性,如是否匹配、是否为反向互补等。
ref: 参考序列的名称。
10,20: 比对结果在参考序列上的起始位置。
60: 比对结果的质量得分,表示比对的可信度或准确性。
5S5M,10M: 比对的 CIGAR 字符串,描述比对的操作和长度。这里的 "10M" 表示在比对中存在一个长度为 10 的匹配段。
=: 表示比对到同一条参考序列。
100,95,80: 比对结果在参考序列上的终止位置。
TTAGG,TAGCT: 比对到参考序列的序列。
IIIII: 比对序列的质量值。
NM:i:0,NM:i:1: 比对结果的编辑距离,表示与参考序列不匹配的碱基数量。
每一列代表不同的意思:
1.QNAME:读取序列的名称。
2.FLAG:表示比对的标志位,用于指示比对的属性和状态。
3.RNAME:比对到的参考序列的名称。
4.POS:比对在参考序列上的起始位置。
5.MAPQ:比对质量得分,表示比对的可信度。
6.CIGAR:比对的 CIGAR 字符串,描述比对的操作序列。
7.RNEXT:下一个比对的参考序列名称。
8.PNEXT:下一个比对的位置。
9.TLEN:比对序列的长度。
10.SEQ:比对的序列。
11.QUAL:序列的质量值。
网友评论