序列相似性搜索是重要的生物信息学研究之一,常常为新测序基因组或序列片段的功能提供参考,而BLAST是这一系列工具中最流行的相似性搜索工具。1989年,美国国家生物技术信息中心(NCBI)首次推出BLAST。自第一版以来,NCBI一直在维护和更新BLAST版本。 2009年,NCBI推出了新版本的独立式BLAST应用程序(BLAST +),现在的版本已更新到2.7.1。BLAST+与BLAST相比,有很多改进和提高,可以加快搜索速度,并在输出格式和搜索输入方面提供更大的灵活性,主要有以下几点:
- 分割较长的查询序列以减少内存使用,并且充分利用现代CPU的运算能力;
- 使用数据库索引来显著加快搜索的速度;
- 具有保存稍后可用于开始新一轮搜索的“搜索策略”的能力;
- 在表格式结果的格式化方面具有更大的灵活性。
NCBI强烈推荐放弃BLAST,使用BLAST+, 这里说的BLAST和BLAST+,都是本地的,与那个批量BLAST小程序不是一回事。BLAST+下载地址:NCBI BLAST+ 。
BLAST+的一般用法如下:
格式化数据库
makeblastdb -in db.fasta -dbtype prot -out dbname
参数说明:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-out:数据库名
蛋白序列比对蛋白数据库(blastp)
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式
-evalue:设置输出结果的e-value值
-num_threads:线程数
核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx)
与上面的blastp用法类似:
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
以上的参数说明只是一些常用的参数,完整的参数说明可以用-help查询,关于BLAST的详细介绍可以参考BLAST的官方文档。
参考:
- 有个博客:BLAST+使用方法
- BLAST® Command Line Applications User Manual [Internet].
网友评论