2022-09-03 NR 动物数据库构建方法2

作者: 生信圈 | 来源:发表于2022-09-02 12:53 被阅读0次

生信数据库
BLAST数据库构建过程中sseqid无法关联到staxids的
NCBI数据库
使用awk实现：二代测序文件fastq转换为fasta格式
fq转换成fa格式
Nr,GenBank, RefSeq, UniProt 数据库的
案例：学生管理系统
构建ncbi——nr本地库
2020-09-24-基因组名词解释
【数据处理】python将GO注释结果整理为WEGO文件

部分可参考前一篇我发布的方法

1.安装taxonkit

conda install -c bioconda taxonkit

试运行taxonkit

taxonkit list -j 2 --ids 33208 --indent ""

参数说明：

-j ：线程数；

--ids：需要提取的分类的taxid；动物是33208

--data-dir：该目录下必须包含文件names.dmp和nodes.dmp；没有文件会报错，根据提示移动文件即可

--indent：提取的物种编号缩进位置，这个参数很重要，记得一定要设置为空 ""

2.移动一些必要文件，例如：

cp nodes.dmp ~/.taxonkit

cp names.dmp ~/.taxonkit

3.测试一下

grep -P "\|\s+[Aa]nimal\w*\s*\|" ~/.taxonkit/names.dmp

可以看到animal对应33208

4正式提取

taxonkit list -j 2 --ids 33208 --indent "" > taxonkit.ani.txt

5.csvtk

conda install -c bioconda csvtk

cat prot.accession2taxid | csvtk -t grep -f taxid -P taxonkit.ani.txt | csvtk -t cut -f accession.version > ani.taxid.acc.txt

wc -l ani.taxid.acc.txt

57632930

6.构建NR-animal库(操作同方法1)

seqkit grep -f ani.taxid.acc.txt nr -o animals

seqkit grep -f ani.taxid.acc.txt 你的nr文件地址 -o animals输出名称

7构建diamond索引

diamond makedb --in animals -d animals

参考：

https://www.jianshu.com/p/1d6edfcb4110

https://www.pudn.com/news/6297202ee74b9677e8fa44bb.html

https://zhuanlan.zhihu.com/p/556971474

网友评论

本文标题：2022-09-03 NR 动物数据库构建方法2

本文链接：https://www.haomeiwen.com/subject/uvlunrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2022-09-03 NR 动物数据库构建方法2

相关文章

生信数据库

BLAST数据库构建过程中sseqid无法关联到staxids的

NCBI数据库

使用awk实现：二代测序文件fastq转换为fasta格式

fq转换成fa格式

Nr,GenBank, RefSeq, UniProt 数据库的

案例：学生管理系统

构建ncbi——nr本地库

2020-09-24-基因组名词解释

【数据处理】python将GO注释结果整理为WEGO文件

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读