美文网首页生信
第2章 序列联配

第2章 序列联配

作者: 夏大希 | 来源:发表于2021-09-10 22:19 被阅读0次

1.BLOSUM矩阵的推导 - 简书 (jianshu.com)

2.1 引言

两条或者多条序列进行联配的关键问题思考主要为四个方面
① 考虑何种联配
② 选择联配的排序的计分系统
③ 找到最优或较好的联配所使用的算法
④ 评估联配分数显著性水平所使用的计分系统

如何区分假联配 ??这是看这本书的第二章的问题

查看一下资料发现联配主要是服务于序列比对,序列比对中最后的输出数据一般是sam格式,现在接触到的就是从sam格式转变成bam格式,但是sam格式的具体内容,具体比对到参考基因组,如何比对的这个没有细究过,就是个工具人,这样容易会被淘汰,要知己知彼,静下心来学生信,感觉自己应该会有很大的成长。
biostar handbook(六)| 序列联配 - 简书 (jianshu.com)

强烈推荐看一下下边这个链接的讲解

sam格式详细说明 - 简书 (jianshu.com)

2.2 计分模型

基因突变的过程主要包括替换(substitution)、插入(insertion)、删除(deletion), 其中插入和删除统称为空位(gap)。
联配的总得分为 每个残基配对项与每个空位项之和。(用概率论来讲就对应于序列相关之于无关的对数相对似然) 这句话有点绕
下边的这位大佬讲的很详细
双序列比对的理论基础(一)_隔壁王同学啊的博客-CSDN博客

image.png

进行计分方案的假设
序列不同位点上突变的发生是相互独立的(将任意长的连续空位当作一个突变来看待)

2.2.1 替换矩阵

替换矩阵的符号说明

(1)x\y 分别代表长度为m和n的序列。
(2)x_iy_j 分别代表序列x的第i个字符和序列y的第j个字符
(3)i j 都是来自字母表A DNA序列 A代表{ATCG} 氨基酸序列 A代表全部20种氨基酸集合,a b 代表字母表中的字符

替换矩阵两种模型

无关或随机模型R

无关或随机模型R
该模型的假设是字母a以频率q_a 独立存在,那么序列xy 的概率就是字母概率的乘积

匹配模型M

匹配模型M
匹配模型的假设是出现联配的残基对以联合概率P_{ab},该位点ab是由共同的祖先中某个未知的原始残基c(也有可能是a或b)衍变而来的。

相关之于无关的相对似然

image.png

Logit(log odds)_zealfory-CSDN博客_log odds

image.png
似然和似然函数详解 - 知乎 (zhihu.com)

计分矩阵

(1)BLOSUM50矩阵
一段序列的相关之于无关就是每个残基的联分数s(a,b)的和。例如一个氨基酸可能配对的方式有20种,这样就会形成一个20X20的矩阵,这个矩阵就叫做计分矩阵或者替换矩阵。

image.png

(2) PAM矩阵
基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
(以我目前接触的东西现在想到的构建系统发育模型和进化树,这个理论是不是应用到系统发育树)

这个大佬写的超级棒,醍醐灌顶的明白
记PAM250矩阵的自乘_u011919863的博客-CSDN博客_pam矩阵
(3) BLOSUM和PAM的区别
得分矩阵PAM与BLOSUM的比较与区别 | Public Library of Bioinformatics (plob.org)

其他参考
序列比对空位罚分原理 - 简书 (jianshu.com)

生信学习07-多序列联配及功能域分析 - 简书 (jianshu.com)

相关文章

网友评论

    本文标题:第2章 序列联配

    本文链接:https://www.haomeiwen.com/subject/cqfxpltx.html