EMBI 双序列比对
https://www.ebi.ac.uk/Tools/psa/
EMBI 的在线双序列比对工具提供了三种选项,1)全局比对;2)局部比对;3)全基因组比对。
并且每一个比对工具下提供了不同算法的选择。
小试牛刀
这里我使用的uniprot 中的ABCB1 的两种亚型的数据。
https://www.uniprot.org/uniprot/P08183#sequences
选择Needleman-Wunsch 算法的全局比对,先来试试看。
输入序列值
这一步非常简单,将蛋白质序列贴在输入框即可。
可以手动输入,也可以上传文件。
但是embi 对文件格式也做了一定的要求。
设置比对参数
遇事不绝,BLOSUM62 就完事儿拉。(embi 也帮我们设定好了默认的参数)
gap 为罚分情况,而这里的gap 也分了很多种。
查看结果
返回的结果分为两个部分。
第一部分
第一个部分是比对相关设定的参数,以及最终比对的概要,如长度,一致度、相似度、空格,得分。
第二部分
第二部分则是序列比对的具体信息
左边是序列的名字(ps:实际使用发现,对于序列名称较长时,工具无法读完整,因此尽量不要把两条序列的名称弄得太长)
右边则是序列部分。
上下分别是两条序列的信息。而连接两条序列的中间部分,则表示序列匹配的具体情况。
左右分别表示起始或末尾的字母,实际在序列中的位置。
表示 R 在该序列中,位于1186位置。
聊一聊gap 的类型
还记得在操作时,第二步提供了gap 罚分的参数选项吗?
实际上,这些gap 也有不同的类型。针对不同类型的gap,调整不同的罚分,可以使结果更加准确。
gap open,便是一系列空格中,开头的那个空格。领头的自然牛一些,因此分数也罚的高。
gap extend,便是跟着gap open 的一系列延伸的空格。跟班的自然比不过打头的,分也低了不少。
结尾也可以设定gap 罚分
end gap penalty 默认为false,若设定为true 则可以使用结尾的gap 罚分。但一般亲缘关系较近且大多数情况下,一般不使用结尾gap 罚分。
不同gap 下的结果
当我们给gap open 大 ,如 10分,gap extend 小,如0.5分的时候。
结果里的空格在序列比对中的位置就相对非常集中。
自然是因为分散的gap 代价太大了。
而同理,当我们给gap open 小 ,如 1分,gap extend 大,如5分的时候。结果里的空格也相应的非常分散。
选择适当的gap 罚分
既然两种不同的罚分设定会造成序列比对结果的差异,该选择哪种方式呢?
比如下面就有两个很典型的情况。gap 集中 or gap 分散?
1)有两条相似的待比对序列,是同源序列,因此它们的功能和结构也相似。其中一条序列结构已知,而另一条未知。想通过序列比对,用已知结构序列作为模版,预测另一个序列的结构。(分散)
2)有两条待比对序列,且已知它们大部分区域都是非常相似的,但其中一个序列的功能区,在另一个序列中是缺失的。想要通过序列比对,将另一个序列的功能区找出来。(集中)
如果你对于结果没有什么预期,例如只是为了单纯地比较两个不同的序列,则可以使用默认的罚分参数,即 gap open = 10, gap extend = 0.5。
局部序列比对
局部比对提供了三种算法
尝试一下
选择最经典的 Simith-Waterman 算法
其他所有的步骤都和全局比对是差不多的。
我们可以使用PSA 提供的范例数据
从比对结果来看,长度也少了不少,因为只把黑色的相似部分做了序列比对。
使用局部比对的情况
一般来说,除了当一长一短的情况时,当两条序列长度差不多时,也可以使用局部比对,以发现两条序列最相似的部分。
有的时候,两条序列并不同源,只是有相似的功能区域,使用局部比对可以非常快速的定位该区域在序列中的位置。
其他双序列比对的算法
除了之前介绍的EMBL pairwise sequence alignment 外,还有其他许多平台提供 全局/局部 双序列比对的算法。
而主要应用的也是 Simith-Waterman 算法(局部) 以及Needleman-Wunsch 算法(全局)。只是在基础上有所变化。
biotools
一个老师开发的比embl 只多不少的双序列比对工具(滑稽.jpg)
还可以给出得分矩阵的作图结果
网友评论