BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。
安装blast
#下载blast软件包选择2.7.1版本
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz
#解压到pkgs文件夹中
tar –zxvf ncbi-blast-2.7.1+-x64-linux.tar.gz –C /YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/
#文件夹重命名为ncbi-blast
mv ncbi-blast-2.7.1+ ncbi-blast
#将软件配置环境变量
echo ‘PATH=/YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/ncbi-blast/bin:$PATH’ >> ~/.bashrc
#刷新.bashrc文件,环境变量生效
source ~/.bashrc
#验证软件是否安装成功
blastn -version
创建nt数据库
#创建blast_db文件夹
mkdir ./blast_db && cd ./blast_db
#下载nt.gz(核酸数据库)以及md5文件
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz.md5
#生成md5
md5sum nt.gz
#解压nt.gz文件
gunzip nt.gz
#建立索引步骤放在后台运行,考虑避免建库出现错误,添加了-logfile 参数,记录建库的过程。
nohup makeblastdb -in nt -parse_seqids -hash_index -dbtype nucl -logfile nt_logfile &
除上述创建方法,也可以直接下载https://ftp.ncbi.nih.gov/blast/db/路径下nt.*.tar.gz,然后进行解压,最后在家目录中创建.ncbirc文件,该文件是NCBI BLAST全局配置文件,写入以下内容:
; Start the section for BLAST configuration
[BLAST]
; Specifies the path where BLAST databases are installed
BLASTDB= /YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/
; Specifies the data sources to use for automatic resolution
; for sequence identifiers
DATA_LOADERS=blastdb
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nr
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nt
BATCH_SIZE=10G
; Windowmasker settings
[WINDOW_MASKER]
WINDOW_MASKER_PATH=/db/home/shenwei/data/blast/windowmasker
; end of file
程序名 | 查询序列 | 数据库 | 搜索方法 |
---|---|---|---|
Blastn | 核酸 | 核酸 | 核酸序列搜索逐一核酸数据库中的序列 |
Blastp | 蛋白质 | 蛋白质 | 蛋白质序列搜索逐一蛋白质数据库中的序列 |
Blastx | 核酸 | 蛋白质 | 核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索 |
Tblastn | 蛋白质 | 核酸 | 蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对 |
TBlastx | 核酸 | 核酸 | 核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对 |
网友评论