序列比较与相似度量化

作者: 熊猫人和熊猫猫 | 来源:发表于2020-01-15 20:10 被阅读0次

蛋白质序列：由20个不同的字母（氨基酸）排列组合而成
核酸序列：由4个不同的字母（碱基）排列组合而成

序列相似性的重要性：
相似的序列往往起源于一个共同的祖先序列。它们很有可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。

一致度（identity）：如果两个序列（蛋白质或核酸）长度相同，那么它们的一致度定义为它们对应位置上相同的残基（一个字母，氨基酸或碱基）的数目占总长度的百分数。
相似度（similarity）：如果两个序列（蛋白质或核酸）长度相同，那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。

残基两两相似的量化关系被 替换记分矩阵 所定义。
替换记分矩阵（Substitution Matrix）:反映残基之间相互替换率的矩阵，它描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。

1.等价矩阵：最简单的替换记分矩阵，其中，相同核苷酸之间的匹配得分为1，不同核苷酸之间的替换得分为0。实际序列中用得少。
2.转换-颠换矩阵：核酸的碱基按照环结构特征被划分为两类：一类是嘌呤（腺嘌呤A、鸟嘌呤G），它们有两个环；另一类是嘧啶（胞嘧啶C、胸腺嘧啶T），它们只有一个环。如果dna碱基的替换保持环数不变，则称为转换，如果环数发生变换，则称为颠换。在进化过程中，转换发生的频率比颠换高跟多，为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5.
3.BLAST矩阵：经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5，反之为-4，则比对效果较好。这个矩阵广泛地被DNA序列比较所采用