比对基本概念

作者: 晓佥 | 来源:发表于2019-05-30 10:44 被阅读8次

    相似性(Similarity)

    ​ 是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。

    同源性(Homology) 是指从某一共同祖先经趋异进化而形成的不同序列。只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。

    相似性和同源性的关系

    ​ 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列; 而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。 总之不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。

    序列相似性分析:

    ​ 就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;

    序列同源性分析:

    ​ 是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有Phylip及Mega等进化分析软件;

    全局比对与局部比对

    全局比对 寻找序列在全长范围内最佳比对。 常用算法如:Needleman-Wunsch algorithm(Needle) 在线程序如: Needle

    局部比对 寻找序列在局部区域的最高比对打分。 常用算法如:Smith-Waterman algorithm,blast,fasta等 在线程序如: Water

    ​ Needle及Water的在线程序 http://bioweb2.pasteur.fr/alignment/intro-en.html

    ​ 也可以本地安装Emboss执行以上程序.

    局部相似性比对的生物学基础 蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。

    HSP(High Scoring Pair):

    ​ 在局部比对时,得分高的匹配序列被称为高分值片段。LCRs(low compositional complexity regions):

    ​ 低复杂度区域,即这些区域的组成有某些偏好,比如DNA中的简单重复序列。在蛋白质中一些残基过多表现。在进行BLAST比较时,将会把LCRs屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用n,在蛋白质中用X代替。

    gi(GenBank Index)

    ​ 特定于GenBank数据库中所赋予每一条序列的特定索引数字。

    nr(non-redundant database)

    ​ 非冗余数据库,该库信息多,并且无冗余序列.

    相关文章

      网友评论

        本文标题:比对基本概念

        本文链接:https://www.haomeiwen.com/subject/vwrmtctx.html