一、本地Blast用途介绍:
在我们平时的学习、实验、和数据分析的时候经常会遇到将某条序列或者某个fasta文件比对到某个数据库的情况,或者已知序列与自定义数据库的比对,这种是在线blast无法完成的。下面就详细介绍一下本地的Blast(Basic Local Alignment Search Tool)的安装及使用。
二、本地Blast的安装:
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
1.点击下载。

2.下载后正常安装即可,这里不再赘述。安装成功后,会生成两个文件夹,分别是bin和doc,其中bin是程序目录, doc是文档目录。然后在目录下新建文件夹,重命名为db。
3.设置环境变量。右键点击“我的电脑”-属性,然后“高级系统设置”选项-“环境变量”,在用户变量下方点击“新建”-变量名:BLASTDB,变量值:D:\blast-2.7.1\db(即电脑上安装好后新建的db文件夹的路径)。在系统变量下方“Path”添加变量值:D:\blast-2.7.1\bin(即电脑上bin文件夹位置)。环境配置完成。
三、本地Blast。可以构建自定义数据库,也可以下载某些通用的数据库构建本地数据库,这取决于自己blast的目的。本文主要演示自定义数据库,但两者方法一样,通用数据库只是将数据库下载后建库。
1.首先需要准备需要比对的序列(fasta格式)和数据库序列(fasta格式),放在db文件夹下。这里准备的是蛋白序列。


2.建立索引:makeblastdb -in test.fa -dbtype prot -out test_db.fa
注:
-dbtype:序列类型,nucl为核酸序列,prot为蛋白序列。
-in:输入文件,fasta格式文件。
-out:输出文件
3.比对:blastp -query (1.fa) -max_target_seqs 10 -db (test_db.fa) -outfmt 6 -out (test.out)
注:
blastp:蛋白比对;
blastn:核酸比对;
-query:查询的输入序列,fasta格式文件;
-max_target_seqs:最多允许比对到数据库中的序列数目,参数仅适用于outfmt >4;
-db:比对用的数据库,跟上一步是一样的输出序列文件;
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式(一般选6即可)
-out:输出文件


4.查看比对结果。如果选择tabular格式,对应的结果表头为:#query_ID #subject_ID #simility #length #mismatch #empty #query_start #query_end #subject_start# subject_end #evalue #bit_score
注:
simility:相似性。匹配上的碱基数占总序列长的百分数;
E值(Expect):表示随机匹配的可能性。E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认;
bit_core:得分值越高说明同源性越好。

网友评论