美文网首页
创建细菌NR子库

创建细菌NR子库

作者: 赵会成 | 来源:发表于2019-05-22 14:38 被阅读0次

    可以在检索框输入txid2[Organism],左侧选择细菌古菌

    Taxonomy IDs

    Microsporidia 6029 txid6029[ORGN]

    Archaea 2157 txid2157[ORGN]

    Bacteria 2 txid2[ORGN]

    Eukaryota 2759 txid2759[ORGN]

    Viruses 10239 txid10239[ORGN]

    Streptococci 1301 txid1301[ORGN]

    https://www.ncbi.nlm.nih.gov/protein/

    Send toFile Download614536690 items.Format accession List

    实际上文件太大,无法下载,然后咋办呢,下载NCBI的TaxonKit软件,解压,接着:

    http://bioinf.shenwei.me/taxonkit/download/

    http://bioinf.shenwei.me/csvtk/download/

    将taxonkit放到环境变量中

    sudo cp taxonkit /usr/local/bin/

    sudo cp csvtk /usr/local/bin/

    数据库

    nodes.dmp taxid树的结构

    names.dmp taxid对应的物种名

    wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz

    wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz

    taxonkit list --data-dir ~/taxdump/ --ids 2 --indent "" > 2.taxid.txt

    wc -l 2.taxid.txt

    zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P 2.taxid.txt |csvtk -t cut -f accession.version >2.taxid.acc.txt

    建立NR子库

    blastdb_aliastool -seqidlist 2.taxid.acc.txt -db nr -out nr_2 -title nr_2

    然后实际上有一些环境样品的注释信息,对注释帮助不大,用开头的方法,检索框输入

    "environmental samples"[organism] OR metagenomes[orgn]

    awk '{print $0}' 2.taxid.acc.txt env_unculture.seq |sort | uniq -u > acc

    http://www.bioinfo-scrounger.com/archives/207

    https://bioinf.shenwei.me/taxonkit/tutorial/

    相关文章

      网友评论

          本文标题:创建细菌NR子库

          本文链接:https://www.haomeiwen.com/subject/rufuzqtx.html