美文网首页nature颜铎
ncbi nr 数据库提取fasta

ncbi nr 数据库提取fasta

作者: 胡童远 | 来源:发表于2020-06-03 10:12 被阅读0次

    在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的blast,默认是单线程,需要另外configure)。

    一、直接下载nr blast库

    ncbi ftp:ftp://ftp.ncbi.nih.gov/blast/db/

    wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz
    

    因为是拆分好的,下载速度还可以,完全依赖网速。
    ascp也许更快吧:NR数据库简介

    二、blastp nr 注释

    blastp \
    -db /home/cheng/Databases/NCBI_nr/nr \
    -query Result/prokka/genome_prokka.faa \
    -out Result/nr/genome_nr.txt \
    -qcov_hsp_perc 80 \
    -outfmt 6 \
    -evalue 1e-5 \
    -num_threads 52
    

    问题1:无法使用多线程
    问题2:blastp版本不够。BLAST Database error: Error: Not a valid version 4 database.
    源码安装最新版:源码安装blast+及安装和配置GPU-Blast
    方案1:获取fasta自行建库
    方案2:使用新版blast

    试试方案1:

    三、从nr blast 库提取fasta

    blastdbcmd -db nr -entry all -dbtype prot -out test.fa
    BLAST Database error: Error: Not a valid version 4 database
    
    • 源码安装新版blast,重新blastdbcmd
    /home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
    

    nr.04数据库不全,尝试ascp重新下载

    四、ascp下载nr.*.tar.gz

    wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
    tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
    sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
    export PATH=$PATH:/home/cheng/.aspera/connect/bin  # 添加bin到系统环境变量,每个终端都要用一下
    cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/  # 复制文件下的密钥文件到主目录下
    cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
    sudo cp aspera-license /usr/local/bin/  # etc目录下,复制证书到系统目录下 (需要root权限)
    
    • 下载不全的nr
      参数:
      -i PRIVATE-KEY-FILE Private-key file name (id_rsa) 私有密钥文件名称
      -l MAX-RATE Max transfer rate 最大传输速率
      -T Disable encryption 禁用加密
      -k RESUME-LEVEL Resume criterion: 0,3,2,1 断点续传
      -P SSH-PORT TCP port used for SSH authentication 一般是33001?
    ascp -i ~/asperaweb_id_dsa.putty -anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
    
    ascp -i ~/asperaweb_id_dsa.openssh -QTr -l 6000m anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
    

    终究还是用了wget...

    五、nr blast 库提取fasta

    /home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
    
    • 查看结果,包含:
      序列ID,名称,物种
    >EFG1759503.1 decarboxylating NADP(+)-dependent phosphogluconate dehydrogenase [Escherichia coli]
    LKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDG
    EPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDG
    NYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKEQRVAASKVLSGPQAQPAGDKGEFIEKVRRALY
    LGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYIENPQIANLLLAPYFKQIADNYQQALRE
    VVAYAVQNGIPVPTFAAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWL
    >KJX92028.1 hypothetical protein TI39_contig5958g00003 [Zymoseptoria brevis]
    。。。
    

    相关文章

      网友评论

        本文标题:ncbi nr 数据库提取fasta

        本文链接:https://www.haomeiwen.com/subject/edquzhtx.html