美文网首页生信生信分析
linux下安装blast并创建nt数据库

linux下安装blast并创建nt数据库

作者: tianzhanlan | 来源:发表于2019-03-28 10:42 被阅读0次

    BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。

    安装blast
    #下载blast软件包选择2.7.1版本
    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz
    #解压到pkgs文件夹中
    tar –zxvf ncbi-blast-2.7.1+-x64-linux.tar.gz –C /YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/
    #文件夹重命名为ncbi-blast
    mv ncbi-blast-2.7.1+ ncbi-blast
    #将软件配置环境变量
    echo ‘PATH=/YZGROUP1/GYROTECH/Bioinfo-Dept/pkgs/ncbi-blast/bin:$PATH’ >> ~/.bashrc
    #刷新.bashrc文件,环境变量生效
    source ~/.bashrc
    #验证软件是否安装成功
    blastn -version
    
    创建nt数据库
    #创建blast_db文件夹
    mkdir ./blast_db && cd ./blast_db
    #下载nt.gz(核酸数据库)以及md5文件
    wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz 
    wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz.md5
    #生成md5
    md5sum nt.gz
    #解压nt.gz文件
    gunzip nt.gz 
    #建立索引步骤放在后台运行,考虑避免建库出现错误,添加了-logfile 参数,记录建库的过程。
    nohup makeblastdb -in nt -parse_seqids -hash_index -dbtype nucl -logfile nt_logfile &
    
    除上述创建方法,也可以直接下载https://ftp.ncbi.nih.gov/blast/db/路径下nt.*.tar.gz,然后进行解压,最后在家目录中创建.ncbirc文件,该文件是NCBI BLAST全局配置文件,写入以下内容:
    ; Start the section for BLAST configuration
    [BLAST]
    ; Specifies the path where BLAST databases are installed
    BLASTDB= /YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/
    ; Specifies the data sources to use for automatic resolution
    ; for sequence identifiers
    DATA_LOADERS=blastdb
    ; Specifies the BLAST database to use resolve protein sequences
    BLASTDB_PROT_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nr
    ; Specifies the BLAST database to use resolve protein sequences
    BLASTDB_NUCL_DATA_LOADER=/YZGROUP1/GYROTECH/Bioinfo-Dept/HumanProject/blast_db/nt
    BATCH_SIZE=10G
    ; Windowmasker settings
    [WINDOW_MASKER]
    WINDOW_MASKER_PATH=/db/home/shenwei/data/blast/windowmasker
    ; end of file
    
    程序名 查询序列 数据库 搜索方法
    Blastn 核酸 核酸 核酸序列搜索逐一核酸数据库中的序列
    Blastp 蛋白质 蛋白质 蛋白质序列搜索逐一蛋白质数据库中的序列
    Blastx 核酸 蛋白质 核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索
    Tblastn 蛋白质 核酸 蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对
    TBlastx 核酸 核酸 核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对

    相关文章

      网友评论

        本文标题:linux下安装blast并创建nt数据库

        本文链接:https://www.haomeiwen.com/subject/ckifbqtx.html