美文网首页基因组注释
NCBI-NR子库的构建

NCBI-NR子库的构建

作者: 生信小书生 | 来源:发表于2021-03-14 22:16 被阅读0次

目前有很多的数据库都存储了蛋白序列,比如NCBI Refseq, protein, swissprot 等,在各个数据库之间,或者是在某个数据库中,蛋白序列有大量冗余;为了方便使用,NCBI 构建了NR 库,今天,我们就来看一下如何构建NR子库。

步骤如下:

一、下载nr库以及安装taxdump、accession2taxid、csvtk、taxonkit软件

ascp -P33001 -l 500m --mode recv -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh  -QTr -l6000m  anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./
wget -t 0 -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz
wget -t 0 -c https://ftp.nacbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
conda install -c bioconda csvtk -y
conda install taxonkit -c bioconda -y
mkdir taxdump
mv taxdump.tar.gz taxdump
tar -zxvf taxdump.tar.gz
rm taxdump.tar.gz

二、建库(nr库)

nohup makeblastdb -parse_seqids -in nr -dbtype prot -out nr &

三、使用TaxonKit提取特定taxons下的所有taxid(以病毒为例:病毒NCBI编号 txid:10239)

taxonkit list -j 2 --ids 10239 --indent "" --data-dir ./taxdump/ > Virus.list
cat prot.accession2taxid | csvtk -t grep -f taxid -P ../nr/Virus.list | csvtk -t cut -f accession.version > Virus.taxid.acc.txt
blastdb_aliastool -seqidlist Virus.taxid.acc.txt -db /public1/data/xxxx/data/parasite/nr/nr/nr -out nr_virues -title nr_virues
blastdbcmd -db /public1/data/xxxxx/data/parasite/nr/accession2taxid/nr_virues -entry all -dbtype prot -out nr_Virus.fa
diamond makedb --in nr_Virus.fa --db nr_Virus -p 10

至此nr_Virus子库已经构建完成
其余子库(植物,动物)参照病毒子库进行构建,构建需花费大量的时间。但是运算起来能节省数十倍的时间,尤其是随着NR库的日益增大!

注意:不推荐使用NR子库,检索出来假阳性率非常高!

相关文章

  • NCBI-NR子库的构建

    目前有很多的数据库都存储了蛋白序列,比如NCBI Refseq, protein, swissprot 等,在各个...

  • cocoapods私有库笔记

    构建私有库 索引库:存放索引地方私有库:存放代码地方 1.构建索引库 1.1 构建Cocoapods管理 1.1....

  • 4.2.2 如何实现构建动态链接库

    4.2.2 如何实现构建动态链接库问题一:如何实现构建动态链接库? 构建出动态链接库文件 构建输出的以下这四个文件...

  • 5-Answer 系列-本体查询模块

    前面几篇已经介绍了本体构建模块,运行本体构建模块可以构建出一个初步的本体库。 在构建出本体库之后,我们该如何对它进...

  • Vcpkg新增库方法拾遗

    说明 之前写了新增头文件库、CMake构建库、MSBuild构建库的示例,但是现实情况中变化总是比较多的,以下列举...

  • H5开发学习

    依赖库介绍 React react 用于构建用户界面的JavaScript库。 React主要用于构建UI,很多人...

  • windows系统编译OpenCV必备工具

    首先你需要获取源代码,你需要构建自己的库,可以从Git存储库中获取源文件。开始构建OpenCV库需要预先安装几个工...

  • yum 报错 error 0113

    rpm数据库损坏(重新构建rpm数据库)解决:

  • react入门

    react库 ​ 用于构建用户界面的JavaScript库 ​ 注意!!! React是...

  • CoolWeather

    构建数据库模型 因为是构建一个天气的APP,需要显示各地的天气,所以需要构建一个数据库模型存放省、市、县各级的数据...

网友评论

    本文标题:NCBI-NR子库的构建

    本文链接:https://www.haomeiwen.com/subject/nlnccltx.html