2.1 引言

两条或者多条序列进行联配的关键问题思考主要为四个方面
① 考虑何种联配
② 选择联配的排序的计分系统
③ 找到最优或较好的联配所使用的算法
④ 评估联配分数显著性水平所使用的计分系统

如何区分假联配？？这是看这本书的第二章的问题

查看一下资料发现联配主要是服务于序列比对，序列比对中最后的输出数据一般是sam格式，现在接触到的就是从sam格式转变成bam格式，但是sam格式的具体内容，具体比对到参考基因组，如何比对的这个没有细究过，就是个工具人，这样容易会被淘汰，要知己知彼，静下心来学生信，感觉自己应该会有很大的成长。
biostar handbook(六)| 序列联配 - 简书 (jianshu.com)

强烈推荐看一下下边这个链接的讲解

sam格式详细说明 - 简书 (jianshu.com)

2.2 计分模型

基因突变的过程主要包括替换（substitution）、插入（insertion）、删除（deletion），其中插入和删除统称为空位（gap)。
联配的总得分为每个残基配对项与每个空位项之和。（用概率论来讲就对应于序列相关之于无关的对数相对似然）这句话有点绕
下边的这位大佬讲的很详细
双序列比对的理论基础（一）_隔壁王同学啊的博客-CSDN博客

image.png

进行计分方案的假设
序列不同位点上突变的发生是相互独立的（将任意长的连续空位当作一个突变来看待）

2.2.1 替换矩阵

替换矩阵的符号说明

（1）x\y 分别代表长度为m和n的序列。
（2） $x_i$ 和 $y_j$ 分别代表序列x的第i个字符和序列y的第j个字符
（3）i j 都是来自字母表A DNA序列 A代表{ATCG} 氨基酸序列 A代表全部20种氨基酸集合，a b 代表字母表中的字符

替换矩阵两种模型

无关或随机模型R

无关或随机模型R
该模型的假设是字母a以频率

q_a

独立存在，那么序列xy 的概率就是字母概率的乘积

匹配模型M

匹配模型M
匹配模型的假设是出现联配的残基对以联合概率

P_{ab}

，该位点ab是由共同的祖先中某个未知的原始残基c（也有可能是a或b)衍变而来的。

计分矩阵

（1）BLOSUM50矩阵
一段序列的相关之于无关就是每个残基的联分数s(a,b)的和。例如一个氨基酸可能配对的方式有20种，这样就会形成一个20X20的矩阵，这个矩阵就叫做计分矩阵或者替换矩阵。

image.png

（2） PAM矩阵
基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变，但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。
（以我目前接触的东西现在想到的构建系统发育模型和进化树，这个理论是不是应用到系统发育树）

这个大佬写的超级棒，醍醐灌顶的明白
记PAM250矩阵的自乘_u011919863的博客-CSDN博客_pam矩阵
(3) BLOSUM和PAM的区别
得分矩阵PAM与BLOSUM的比较与区别 | Public Library of Bioinformatics (plob.org)

其他参考
序列比对空位罚分原理 - 简书 (jianshu.com)

生信学习07-多序列联配及功能域分析 - 简书 (jianshu.com)