可以在检索框输入txid2[Organism],左侧选择细菌古菌
Taxonomy IDs
Microsporidia 6029 txid6029[ORGN]
Archaea 2157 txid2157[ORGN]
Bacteria 2 txid2[ORGN]
Eukaryota 2759 txid2759[ORGN]
Viruses 10239 txid10239[ORGN]
Streptococci 1301 txid1301[ORGN]
https://www.ncbi.nlm.nih.gov/protein/
Send toFile Download614536690 items.Format accession List
实际上文件太大,无法下载,然后咋办呢,下载NCBI的TaxonKit软件,解压,接着:
http://bioinf.shenwei.me/taxonkit/download/
http://bioinf.shenwei.me/csvtk/download/
将taxonkit放到环境变量中
sudo cp taxonkit /usr/local/bin/
sudo cp csvtk /usr/local/bin/
数据库
nodes.dmp taxid树的结构
names.dmp taxid对应的物种名
wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz
wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
taxonkit list --data-dir ~/taxdump/ --ids 2 --indent "" > 2.taxid.txt
wc -l 2.taxid.txt
zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P 2.taxid.txt |csvtk -t cut -f accession.version >2.taxid.acc.txt
建立NR子库
blastdb_aliastool -seqidlist 2.taxid.acc.txt -db nr -out nr_2 -title nr_2
然后实际上有一些环境样品的注释信息,对注释帮助不大,用开头的方法,检索框输入
"environmental samples"[organism] OR metagenomes[orgn]
awk '{print $0}' 2.taxid.acc.txt env_unculture.seq |sort | uniq -u > acc
http://www.bioinfo-scrounger.com/archives/207
https://bioinf.shenwei.me/taxonkit/tutorial/
网友评论