https://zhuanlan.zhihu.com/p/31405418?from_voters_page=true
Sam : The Sequencing Alignment/Map Format
Bam :
Bam
是Sam
的压缩格式,二者保存的信息内容完全相同
Bam
文件由header
和record
两部分构成
1. header
header
header
: 处在整个文件的开头,每一行都以@
开头
@HD
: 必须的标准头信息
@SQ
: 参考文件染色体信息,顺序必须与参考文件中的保持一致
@RG
:Read Group
,包含测序平台、测序文库、样本ID等信息
@PG
: 用过的操作过程和参数信息,从这个bam
文件产生的那个命令开始记录
Note
: 在一些测序结果生成的bam
文件中,header
还包含其他的内容
2. record
record
record
: 比对结果信息,每一行都是一条read
,基本格式如下:
每一行都会包含>=11
列的内容,列与列之间用制表符
分隔,同一文件中所有行的列数一致
每一行的前11
列内容是必须内容,每行代表的含义是固定的
从第12
行开始,是测序数据的metadata
,具体内容要根据测序数据本身而定,不是固定不变的
每列所具有的含义如下:
图片.png
第一列
bam中的序列名
QNAME : Query Name
,序列名称,与fastq
中序列的名称完全保持一致
fastq中的序列名
第二列
FLAG : flags
,比对信息位,呈现为一个十进制
的整数,这个数大多数时候为多个十进制
整数的和
其中每个十进制
的数都可以转换为一个二进制
的数,这里用到的二进制
的数一共有12
位,其中的每个数位都分别代表一种信息,当此数位为1
时,则代表对于某条序列来说,此信息为TRUE
,是0
则代表此信息为FALSE
FLAG
示例:
FLAG = 69
69 = 64+4+1
64 = 000001000000
: 第六位代表的信息为TRUE
,含义为该序列为双端测序结果的read1
4 = 000000000100
: 第十位代表的信息为TRUE
,含义为序列没有比对到参考序列
1 = 000000000001
: 第十二位代表的信息为TRUE
,含义为该序列为双端测序结果中的一条
与此同时,其他为0
的位置代表的信息则为FALSE
第三列 + 第四列
position
RNAME + POS
,由染色体名称
和在染色体上的位置
共同给出此序列的位置信息
RNAME : Reference Name
,第三列,染色体名称
POS : Position
,第四列,比对上的序列第一个碱基在某染色体上位置,染色体上的第一个碱基的位置为1
比对上的序列第一个碱基在NC_037638.1
这条染色体位置是2005
第五列
MAPQ : Mapping Quality
,比对质量值
MAPQ = -log10(错误比对到此位置上的概率)*10
示例:
MAPQ = 40
错误比对到此位置上的概率 = 0.0001
一般来讲,MAPQ>=30
即为可以相信的比对结果
第六列
CIGAR
CIGAR : Compact Idiosyncratic Gapped Alignment Report
,称为雪茄字符串
,用数字和字母来表示序列比对到参考序列上的细节情况
示例:
10S136M4S
表示:前十个
和后四个
碱基没有比对到序列上,中间的136
个碱基比对到序列上
Note : M 表示完全匹配或者包含单碱基的错配
第七列 + 第八列 + 第九列
Mate Information
,仅对双端序列有意义,表示的内容为双端测序中与此序列配对的序列的比对情况;在某些情况下,即使是双端测序数据,此信息可能也不会包含(信息位置仍在)
RNEXT
: 第七位,配对read
比对到参考文件中的染色体号
PNEXT
: 第八位,配对read
比对到染色体上的第一个碱基的位置
TLEN
: 第九位,配对read
插入片段长度
第十列
SEQ : Read Sequence
,当前read
的序列信息
第十一列
QUAL : Quality Scores
,当前read
的测序质量值
十二列及以后
Metadata
,序列元信息
具体内容根据测序文件的内容而定比如:单细胞测序结果中包含
Cell BarcodeCell Barcode
等信息
网友评论