美文网首页nature颜铎
ncbi nr 数据库提取fasta

ncbi nr 数据库提取fasta

作者: 胡童远 | 来源:发表于2020-06-03 10:12 被阅读0次

在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的blast,默认是单线程,需要另外configure)。

一、直接下载nr blast库

ncbi ftp:ftp://ftp.ncbi.nih.gov/blast/db/

wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz

因为是拆分好的,下载速度还可以,完全依赖网速。
ascp也许更快吧:NR数据库简介

二、blastp nr 注释

blastp \
-db /home/cheng/Databases/NCBI_nr/nr \
-query Result/prokka/genome_prokka.faa \
-out Result/nr/genome_nr.txt \
-qcov_hsp_perc 80 \
-outfmt 6 \
-evalue 1e-5 \
-num_threads 52

问题1:无法使用多线程
问题2:blastp版本不够。BLAST Database error: Error: Not a valid version 4 database.
源码安装最新版:源码安装blast+及安装和配置GPU-Blast
方案1:获取fasta自行建库
方案2:使用新版blast

试试方案1:

三、从nr blast 库提取fasta

blastdbcmd -db nr -entry all -dbtype prot -out test.fa
BLAST Database error: Error: Not a valid version 4 database
  • 源码安装新版blast,重新blastdbcmd
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa

nr.04数据库不全,尝试ascp重新下载

四、ascp下载nr.*.tar.gz

wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
export PATH=$PATH:/home/cheng/.aspera/connect/bin  # 添加bin到系统环境变量,每个终端都要用一下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/  # 复制文件下的密钥文件到主目录下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
sudo cp aspera-license /usr/local/bin/  # etc目录下,复制证书到系统目录下 (需要root权限)
  • 下载不全的nr
    参数:
    -i PRIVATE-KEY-FILE Private-key file name (id_rsa) 私有密钥文件名称
    -l MAX-RATE Max transfer rate 最大传输速率
    -T Disable encryption 禁用加密
    -k RESUME-LEVEL Resume criterion: 0,3,2,1 断点续传
    -P SSH-PORT TCP port used for SSH authentication 一般是33001?
ascp -i ~/asperaweb_id_dsa.putty -anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
ascp -i ~/asperaweb_id_dsa.openssh -QTr -l 6000m anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./

终究还是用了wget...

五、nr blast 库提取fasta

/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
  • 查看结果,包含:
    序列ID,名称,物种
>EFG1759503.1 decarboxylating NADP(+)-dependent phosphogluconate dehydrogenase [Escherichia coli]
LKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDG
EPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDG
NYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKEQRVAASKVLSGPQAQPAGDKGEFIEKVRRALY
LGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYIENPQIANLLLAPYFKQIADNYQQALRE
VVAYAVQNGIPVPTFAAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWL
>KJX92028.1 hypothetical protein TI39_contig5958g00003 [Zymoseptoria brevis]
。。。

相关文章

  • ncbi nr 数据库提取fasta

    在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定bla...

  • *代码笔记

    一、服务器用户端 NT/NR库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA...

  • NCBI数据库

    NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq NR(Non-Redundant Pro...

  • 基因功能注释

    根据已有的蛋白库,对从基因组上提取到的蛋白序列进行比对,从而获得相应的信息。 常用的数据库: Nr:NCBI官方非...

  • blast database

    如何下载 NCBI NR NT数据库? 先了解BLAST Databases 1. Quick Start Get...

  • fasta文处理

    fastq 转fasta文件: awk '{if(NR%4 == 1){print ">" substr($0, ...

  • bowtie-bowtie2去核糖体RNA

    一、在NCBI上下载rRNA的fasta序列,用于建立索引 打开NCBI,select “Taxonomy” an...

  • NCBI中编号/编码说明

    【NCBI编号】NCBI中编号/编码说明 在日常分析中,我们在NCBI数据中常常见到AC、NC、NM、NR、NP、...

  • /blast/db/FASTA

    ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA

  • Clone Manager:RT-PCR/qPCR引物设计

    NCBI下载所需基因的转录本序列(NM或NR开头)如GADPH基因,https://www.ncbi.nlm.ni...

网友评论

    本文标题:ncbi nr 数据库提取fasta

    本文链接:https://www.haomeiwen.com/subject/edquzhtx.html