今天要介绍的内容是SAM/BAM文件的附加信息。
--------------------------------------采用孟哥文章的内容---------------------------------------------
基础导引部分
我们先给大家举个例子,这是一个human 的全基因组测序比对的SAM文件的11列以后的信息。第11列之前学习过了是reads的质量值,那么后面的若干标记比如MD:Z:145等等这些符号是什么意思呢?

根据SAM格式官方文档的信息,我们需要记住以下内容:
1. 所有的TAG都是2个字母,一般情况下都是大写字母。并且TAG在1行的比对结果中只能出现1次。
2. 所有的TYPE都是单字母,大小写敏感,它是用来定义后面VALUE的类型;
3. VALUE可长可短,但是需要和之前的TYPE相呼应。
关于TYPE不同字母对应的不同数据类型,把SAM的官方文档贴一下,共大家参考。其中,最常用的就是i(带符号的数字);Z(可直接输出字符串,可以包含空格);

那么常用的TAG都有哪些,都代表什么含义呢?
提问环节
我们今天的问题很简单,请根据bowtie2的官方文档,解释下面的比对信息:
ST-E00126:128:HJFLHCCXX:2:2107:22820:18520 99 chr1 11682 1 145M = 119920 325 GGAGATTCTTATTAGTGATTTCGGCTGGTGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAA KKKKAAKKAFFKKKKKKFKFKKKFKKKKKKKKKKFKFKKKKKKKKKKKKKKFKFFKKKKKKFAAKAKKKKKKKKKKKKFFKKKFFFKKFKFFKKKKKKKKFFFFFKKKKKKK7<FFKKKKKKAFK<F<<7<AA,,7AA<7F7AA< MD:Z:21G6G116 XG:i:0 NM:i:2 XM:i:2 XN:i:0 XO:i:0 AS:i:-12 XS:i:-12 YS:i:-6 YT:Z:CP
- ST-E00126:128:HJFLHCCXX:2:2107:22820:18520
序列名称,⽐对⽚段的编号,通常包括测序平台的信息
- 99
Flag值 : read paired\ read mapped in proper pair\ mate reverse strand\ first in pair(99对应的比对信息)
- chr1
回帖到的染⾊体名称
- 11682
⽐对到染⾊体上的具体位置(⽐对到正链最左边bp的位置点)
- 1
⽐对的质量值,叫做MAPQ,MAPQ=-10 * log10{mapping出错的概率}
- 145M
CIGAR值,描述具体的⽐对情况
- =
pair reads中与该序列配对的read所mapping到的参考序列,如果没有mapping到同⼀条参考序列上,则
⽤“*”代替。
- 11920
pair reads中与该序列配对的read所mapping到的参考序列的具体位置
- 325
通过分析pair reads mapping到同⼀条参考序列上位置的推断得到fragment的⻓度
- GGAGA....TTAAA
read序列信息
- KKKKA....F7AA<
read序列测序每⼀bp的质量值
- MD:Z:21G6G116
MD:Z:表示在⽐对过程中有mismatch的情况,后⾯字符串表示mismatch的具体位置,前面21个match到参考基因组的G前面,接下来6个match到G前面,最后116g个match
- XG:i:0
XG:i有gap的存在,后⾯数字表示gap的总⻓度(read和reference上的都计算在内)
- NM:i:2
编辑距离,为了将read map到reference上,对read进⾏单核苷酸编辑(替换、插⼊以及删除)的最⼩⻓
度
- XM:i:2
mismatche的具体数⽬
- XN:i:0
序列覆盖区的参考基因组上不确定的base数
- XO:i:0
gap的具体数⽬
- AS:i:-12
⽐对分数,允许负值,局部⽐对最终可以⼤于0,但是全局⽐对中不会
- XS:i:-12
⽐对过程中出现的⽐最终报告分数(AS:i:-12)⾼的⽐对值,同样允许负值,局部⽐对最终可以⼤于0,但是
全局⽐对中不会。当⼀条序列能够同时⽐对到多个位点,且出现连续局部相似度极⾼的情况下会出现这种情况。
- YS:i:-6
与该序列配对的pair read的⽐对分数
- YT:Z:CP
YT:Z:代表pair-read的⽐对情况,“UU”代表没有配对的read; "CP"代表序列为pair reads之⼀,pai
r align cordantly;"DP"表序列为pair reads之⼀,pair align discordantly;"UP"代表序列为p
air reads之⼀,但是pair没有⽐对到参考基因组上。
Reference:
1:生物信息学100个基础问题 —— 第21题 SAM/BAM中的附加标记信息
网友评论