部分可参考前一篇我发布的方法
1.安装taxonkit
conda install -c bioconda taxonkit
试运行taxonkit
taxonkit list -j 2 --ids 33208 --indent ""
参数说明:
-j :线程数;
--ids:需要提取的分类的taxid;动物是33208
--data-dir:该目录下必须包含文件names.dmp和nodes.dmp;没有文件会报错,根据提示移动文件即可
--indent:提取的物种编号缩进位置,这个参数很重要,记得一定要设置为空 ""
2.移动一些必要文件,例如:
cp nodes.dmp ~/.taxonkit
cp names.dmp ~/.taxonkit
3.测试一下
grep -P "\|\s+[Aa]nimal\w*\s*\|" ~/.taxonkit/names.dmp
可以看到animal对应33208
4正式提取
taxonkit list -j 2 --ids 33208 --indent "" > taxonkit.ani.txt
5.csvtk
conda install -c bioconda csvtk
cat prot.accession2taxid | csvtk -t grep -f taxid -P taxonkit.ani.txt | csvtk -t cut -f accession.version > ani.taxid.acc.txt
wc -l ani.taxid.acc.txt
57632930
6.构建NR-animal库(操作同方法1)
seqkit grep -f ani.taxid.acc.txt nr -o animals
seqkit grep -f ani.taxid.acc.txt 你的nr文件地址 -o animals输出名称
7构建diamond索引
diamond makedb --in animals -d animals
参考:
https://www.jianshu.com/p/1d6edfcb4110
https://www.pudn.com/news/6297202ee74b9677e8fa44bb.html
https://zhuanlan.zhihu.com/p/556971474
网友评论