1.BLOSUM矩阵的推导 - 简书 (jianshu.com)
2.1 引言
两条或者多条序列进行联配的关键问题思考主要为四个方面
① 考虑何种联配
② 选择联配的排序的计分系统
③ 找到最优或较好的联配所使用的算法
④ 评估联配分数显著性水平所使用的计分系统
如何区分假联配 ??这是看这本书的第二章的问题
查看一下资料发现联配主要是服务于序列比对,序列比对中最后的输出数据一般是sam格式,现在接触到的就是从sam格式转变成bam格式,但是sam格式的具体内容,具体比对到参考基因组,如何比对的这个没有细究过,就是个工具人,这样容易会被淘汰,要知己知彼,静下心来学生信,感觉自己应该会有很大的成长。
biostar handbook(六)| 序列联配 - 简书 (jianshu.com)
强烈推荐看一下下边这个链接的讲解
2.2 计分模型
基因突变的过程主要包括替换(substitution)、插入(insertion)、删除(deletion), 其中插入和删除统称为空位(gap)。
联配的总得分为 每个残基配对项与每个空位项之和。(用概率论来讲就对应于序列相关之于无关的对数相对似然) 这句话有点绕
下边的这位大佬讲的很详细
双序列比对的理论基础(一)_隔壁王同学啊的博客-CSDN博客

进行计分方案的假设
序列不同位点上突变的发生是相互独立的(将任意长的连续空位当作一个突变来看待)
2.2.1 替换矩阵
替换矩阵的符号说明
(1)x\y 分别代表长度为m和n的序列。
(2) 和
分别代表序列x的第i个字符和序列y的第j个字符
(3)i j 都是来自字母表A DNA序列 A代表{ATCG} 氨基酸序列 A代表全部20种氨基酸集合,a b 代表字母表中的字符
替换矩阵两种模型
无关或随机模型R

该模型的假设是字母a以频率
匹配模型M

匹配模型的假设是出现联配的残基对以联合概率
相关之于无关的相对似然

Logit(log odds)_zealfory-CSDN博客_log odds

似然和似然函数详解 - 知乎 (zhihu.com)
计分矩阵
(1)BLOSUM50矩阵
一段序列的相关之于无关就是每个残基的联分数s(a,b)的和。例如一个氨基酸可能配对的方式有20种,这样就会形成一个20X20的矩阵,这个矩阵就叫做计分矩阵或者替换矩阵。

(2) PAM矩阵
基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
(以我目前接触的东西现在想到的构建系统发育模型和进化树,这个理论是不是应用到系统发育树)
这个大佬写的超级棒,醍醐灌顶的明白
记PAM250矩阵的自乘_u011919863的博客-CSDN博客_pam矩阵
(3) BLOSUM和PAM的区别
得分矩阵PAM与BLOSUM的比较与区别 | Public Library of Bioinformatics (plob.org)
网友评论