美文网首页生物信息生物信息学分析方法
MegaBlast—更快得定位目标序列

MegaBlast—更快得定位目标序列

作者: 银色麦穗 | 来源:发表于2016-09-12 23:26 被阅读138次

introduction

序列比对是生物信息中永不过时的一个话题,是任何想要入行的人都必须掌握的一项技能。把一段序列定位到一个基因组上,找到它的同源序列,更是其中的一个经典问题。本文的主要内容就是介绍如何使用MegaBlast更快地找出你想要的同源序列,更快地得到一段序列在基因组上的定位。
注:不会介绍基本的blast用法,只是介绍如何开启MegaBlast。

什么是MegaBlast

  • MegaBlast是经典比对软件Blast的一个子模块,在现版本的Blast+中隶属于blastn的一个子模块(task)。
  • blastn是用于核酸序列比对的一个模块,MegaBlast执行同样的功能,但是它可以跑得更快
  • 缺点是只能找出相似度比较高的序列,一般用于同一物种内部或者分歧不太远的物种之间。
  • 经过实际使用发现,MegaBlast对于相似度90%以上的序列是可以找到的,但是不能保证全部找到,而90%以下就几乎找不出来了。
官方介绍

如何调用MegaBlast

对于linux本地版本:
很简单,只要在你原来的blastn脚本里面加上一个参数:

-task megablast

就可以了!

但是你的MegaBlast其实还可以更快!

MegaBlast使用的database依然是正常的,用makeblastdb建立的database文件,但是我们还可以对database再建立一个MegaBlast专用的index!方法如下:

makembindex -iformat blastdb -input Your_database_name

建立好索引之后,在你的blastn命令中添加:

-use_index true

然后你的MegaBlast就可以快地飞起!

Using an index can improve search times significantly under certain conditions. It is most beneficial when the queries are much shorter than the database and works best for queries under 1 Mbases long. The advantage comes from the fact that the whole database does not have to be scanned during the search.

当然也有些限制:

1.Index files are about four times larger than the blast databases. If an index does not fit into computer operating memory, then the advantage of using it is eliminated.
2.Word size must be set to 16 or more in order to use an indexed search.
3.Discontiguous search is not supported.

但总得来说,对于相似度高的序列,尤其是相似度95%以上的,用这个都不会有啥问题。

序列相似度不够高怎么办?

对于相似度较低的序列,同样有一种对应的比blastn更快的方法,那就是dc-megablast(Discontiguous-megablast)。它对于70%以上的比对差不多可以找到。
开启dc-megablast的方法也很简单(靠记忆写的,要是出现问题欢迎留言):

-task dc-megablast

但是! dc-megablast 不能使用MegaBlast专用的那个index,所以就不用再用makembindex来建立index了!

结语

根据实际需求合理使用MegaBlast可以有效提升效率。
如果你只是想快速地找到高相似度序列(而不是找到一大堆比较相似的序列),那么MegaBlast会是个比较好的选择。
对于相似度比较低的序列,可以使用dc-megablast。

有问题欢迎留言。

ps. 也欢迎打赏...........

相关文章

  • MegaBlast—更快得定位目标序列

    introduction 序列比对是生物信息中永不过时的一个话题,是任何想要入行的人都必须掌握的一项技能。把一段序...

  • megablast 参数

    2021/07/02 megablast 2.2.25 arguments: ./megablast --he...

  • 超好用的记忆法

    《超好用的宫殿记忆法:从入门到精通》 1、定位目标 在给自己定位时,会有诱惑干扰,只有坚定目标,让它更清晰更明确,...

  • 目标和定位

    目标,是我们自己内心最想要的; 定位,是我们自己当下只能要的。 定位和目标需共存,定位是可以帮助我们一点一点更好更...

  • 定位客户群体

    定位 定位客户群体。 新产品定位客户群体,即确定的品牌消费层次,也明确了产品的目标群体,更清晰了做广告的定位。 每...

  • 《可复制的领导力》4

    第四节课最大的收获,就是对目标的理解。目标的前提是定位,有了准确的定位,就能够更准确的制定目标。 管理人的基本功是...

  • chapter65 序列比对算法alignment

    1.序列比对的作用 大致分为两种: 比对两个序列的相似性,比如TA克隆序列和目标序列是否一致; 寻找与目标序列最接...

  • 2019-01-14 GPS定位,选择性粘贴

    GPS定位,选择性粘贴 一基本用法 按:ctrl+g/f5 快速定位 定位常量 首先选中序列,按快捷键 定位批注 ...

  • 记一次Avro序列化bug

    bug描述 Avro 序列化 Event长度超过63后 反序列化失败 问题定位 1.程序中将avro序列化后的by...

  • 目标检测概念

    一、目标检测概念 目标检测的实质是多目标的定位,即要在图片中定位多个目标物体。 例如下图,既要定位各个目标,还需要...

网友评论

    本文标题:MegaBlast—更快得定位目标序列

    本文链接:https://www.haomeiwen.com/subject/rhzpettx.html