为什么选用本地Blast:
我一直有个疑问,NCBI提供了简洁明了的交互式Blast操作界面,Genebank有着庞大的序列数据库,而且服务器计算性能还在不断地提升检索的速度越来越快,为什么还要进行本地Blast?直到我遇到一个问题:在一个刚组装好的unigene中找到 melanocyte-stimulating hormone receptor 的同源基因,由于这是一个无参的转录组数据,在NCBI中并没有该物种的基因序列信息,那么在线Blast虽然强大,也无法解决这个问题。而本地Blast就可以很好的解决这个问题:以同源物种该基因的序列作为query序列,从刚组装好的unigene这个database钓出该基因的序列。欲善其事,先利其器,首先讲一下Blast+的安装。
Blast+的安装:
下载地址传送门https://blast.ncbi.nlm.nih.gov/Blast.cgiCMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download,根据自己的系统选择合适的软件版本。本文讲的是windows系统上的使用方法,Linux类似请自行摸索。下载得到Blast+.exe文件,傻瓜式安装,不在赘述。
Blast的使用方法
1.进入CMD命令操作台,如果软件安装在D盘,敲D:
切入D盘目录,然后一路cd
加目录名进入Blast的bin目录中。like this:
2.创建Blast数据库:
先将待query的序列文件,以及建库的文件copy到blast的bin目录下,这样最方便避免敲文件的路径。然后创建数据库:
makeblastdb -in unigene.fasta -dbtype nucl -out unigene.db
出现这个界面表示建库成功。注意:若建立的是氨基酸数据库,则
-dbtype
相应的改为
prot
。序列文件格式为fasta格式。3.Query
blastn -query msh.fasta -out blast.out -db unigene.db evalue 1e-5
输入query命令后bin文件夹中生成blast.out文件表示blast完成。这里值得注意的是blast的命令有很多包括"blastn","blastp","blastx","tblastn"等。它们的区别我简单描述一下:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用。
希望对你有所帮助。
网友评论