BBQ(生信基础问题18,19,20)-----mapping专

作者: liu_ll | 来源:发表于2019-01-13 21:40 被阅读74次

BBQ(生信基础问题18,19,20)-----mapping专
BBQ（生信基础问题17）----mapping专题：SAM和B
BWA_Bowtie1/2 比对算法【BWT】
BBQ（生信基础问题13）：序列比对专题
BBQ(生物信息基础问题37)：当样本转录组普遍变化时RNA-S
BBQ（生信基础问题）27：GENCODE与Ensembl GT
BBQ（生信基础问题28）：如何使用samtools tview
BBQ（生信基础问题6-10问）：Fastqc专题
BBQ(生信基础问题11-12问-cutadapter)：Cut
BBQ(生信基础问题14-15)-BLAST专题&BLA

今天我们来关注一下SAM文件的第五列MAPQ和第六列CIGAR(第一次看到这个词反应半天，雪茄是神马鬼哈哈)

1：什么是MAPQ？

根据SAM文件的官方定义：
MAPQ: Mapping Quality. It equals -10 log10 Pr{mapping position is wrong}, rounded to the nearest integer. A value 255 indicates that the mapping quality is not available.
用公式来表示的话

MAPQ=-10 * log10{mapping出错的概率}

如何理解这个公式呢？

我们肯定是希望mapping的出错率越低越好的。举个例子，如果是在mapping的过程中，有100个碱基里面有1个碱基的错配的话，它的出错率是1%。这样算出来的MAPQ是20，所以，当MAPQ的值越大，它的出错率越低。而且一般最好的值是60。说明它的错误率是10^-6.

我们来看一个实际的例子。截图里MAPQ出现了3个不同的值：60,22,0
那么0就是说没有匹配上。如果是255的话，说明是占位符。

SAM文件截图

我们来看看BBQ的问题：
1.1 如果mapping的时候输入的是FASTA文件，那么MAPQ还有意义吗？为什么？

首先，我们回顾一下.Fa文件的格式：

fasta文件格式，图片来自于BBQ17问
文件的第四列的信息是每个碱基的质量分数。而MAPQ是指mapping到reference序列上的匹配情况，二者是不同的概念。
1.2. 不同的比对软件比如bwa与bowtie2，计算出来的MAPQ意义相同吗？为什么？

bwa，bowtie，bowtie2都是基于BWT算法。但是它们有轻微的区别。BWA的准确率高，是SNP分析的首选比对软件。而Bowtie2的运算速度快，被广泛地应用于ChIP-seq, RNA-seq的分析当中。Bowtie2是支持局部比对，全局不对。而且还支持GAP.所以对于MAPQ的值可能会出现不同。
1.3. 请写出samtools view 命令获得MAPQ 大于等于20的sam文件，假设原始的sam文件名为raw.sam，过滤后的sam文件名为filter_MAPQ20.sam

samtools view raw.sam -q 20  > filter_MAPQ20.sam

------------------------------------------------------分割线-------------------------------------------------

2：我们来看看第六列“雪茄”列---CIGAR

2.1 CIGAR是啥？
CIGAR = Concise Idiosyncratic Gapped Alignment Report（简洁独特的间隙对齐报告）

举个栗子：请大家看看截图的红箭头的部分，是24S126M和140M1I9M

SAM文件截图

M:Match 表示匹配上了
S:soft clipping (clipped sequences present in SEQ) 说明存在可变剪接。
I:Insertion 表示插入
所以对于截图里的第一个箭头就是有24个可变剪接的位置，126个匹配上了
对于第二个箭头来说有前140个匹配上了，有一个插入，后面9个可以匹配上。

---------------------------------------------------------分割线------------------------------------------------
我们来看BBQ的问题：
2.1. M,I,D,N分别是什么意思？如果1条序列的CIGAR=150M，那么是不是可以说这150bp的区域中没有mismatch（错配）的现象？
M是match（匹配上或者没匹配上），所以150M不等于完全匹配上
I是Insertion(插入)
D是Deletion（删除）
N是可变剪接的位置（内含子等）

官方文档的解释

2.2 如果1条序列来自于成熟的mRNA，在mapping到基因组的时候会有什么问题？如果这条序列中间正好跨过了200bp的intron，前后各有75bp mapping到了exon上，那么这条序列的CIGAR值应该怎么写？
存在外显子和内含子的位置问题，因为成熟的mRNA都是只有外显子没有内含子的。但是基因组是外显子和内含子都有的。
75M200N75M
2.3. 根据下图提示，请理解clip的含义，无论是softclip还是hardclip。

引自 http://bioinformatics.cvr.ac.uk/blog/tag/cigar-string/

S：soft clipping (clipped sequences present in SEQ)
H：hard clipping (clipped sequences NOT present in SEQ)
clipped均表示一条read的序列被分开，之所以被分开，是因为read的一部分序列能匹配到第三列的RNAME序列上，而被分开的那部分不能匹配到RNAME序列上。

Soft&Hardde 例子

----------------------------------------------分割线---------------------------------------------------------

3:让人摸不着头脑的TLEN,SEQ,QUAL

我们来关注一下第7-11列的信息

表1 SAM格式的标准11列信息介绍

第7列，一般情况下是指Pair read的另一半的比对的参考基因组；，一般“＊”代表完全没有比对上，“＝”代表完全比对

第8列，如果是双端测序，一般情况下是指Pair read的另一半的比对的参考基因组的坐标；

第9列，可以简单理解为这1对read比对到基因组上以后，上游第1个碱基到下游最后1个碱基的距离。如果用负号表示是下游的序列；如果是正数表示为上游的序列；如果是0表示只是单端比对上；

第10列，进行比对read的序列信息；

第11列，进行比对read的质量信息；

我们来看看BBQ的问题:

图中第20行，第9列记录了TLEN值，列出算式计算TLEN值。

sam图

首先，它的TLEN是负值肯定是比对到了下游的序列上面了。那么这个计算就是：
-（11123-10946+145）=-322

计算过程
如果使用FASTQ文件作为input，第11列的质量值是否还有意义？为什么？
没有，因为.Fq自带碱基的质量信息
有没有可能通过SAM文件，提取里面的序列信息并转换成FASTQ格式的文件？如果可能，请你写出程序思路。

samtools view -b -h -s  raw.sam > raw.bam
samtools bam2fq raw.bam > raw.fq

samtools view 帮助文档

samtools bam2fq帮助文档

Reference:
1:生物信息学100个基础问题 —— 第18题高通量比对的质量
2:生物信息学100个基础问题 —— 第19题 SAM/BAM中的CIGAR值
3:生物信息学100个基础问题 —— 第20题 SAM/BAM中的其它重要信息列
3:生信：2：sam格式文件解读

网友评论

本文标题：BBQ(生信基础问题18,19,20)-----mapping专

本文链接：https://www.haomeiwen.com/subject/jqbldqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

BBQ(生信基础问题18,19,20)-----mapping专

1：什么是MAPQ？

2：我们来看看第六列“雪茄”列---CIGAR

3:让人摸不着头脑的TLEN,SEQ,QUAL

相关文章