TaxonKit

作者: LET149 | 来源:发表于2023-05-09 09:29 被阅读0次

    1. 官网

    https://bioinf.shenwei.me/taxonkit/

    TaxonKit

    2. GitHub

    https://github.com/shenwei356/taxonkit

    3.0 Reference

    Note : Reference主要包括以下几个文件
    names.dmp, nodes.dmp, delnodes.dmp, merged.dmp
    下载地址:https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/
    下载文件名:taxdump.tar.gz

    3. taxonkit lca (lowest common ancestor)

    计算一组TaxID的共同最近的ancestor TaxID

    taxonkit lca -D -U -s "," --threads 10 --data-dir path/to/reference taxid.file -o output.name

    -D : 忽略DeletedTaxID
    -U : 忽略UnfoundTaxID
    -s : 用来指定分隔符,默认是空格
    -o : 用来指定输出文件名
    --data-dir : reference所在目录
    taxid.file : TaxID 文件;用来计算lca的一组TaxID应该放在同一行,只能使用空格分隔;不同组放在不同的行

    Note : 每组的TaxIDlca结果放置在这组TaxID的最后

    taxonkit lca

    4. taxonkit list

    给出一个TaxID的所有子 TaxID

    taxonkit list --ids taxid -n -r --indent " " --data-dir /path/to.reference

    --ids : 后跟TaxID
    -n : 展示TaxID对应的name
    -r : 展示TaxID对应的rank

    taxonkit list

    5. taxonkit lineage

    列出TaxID所属的所有Rank,只是向上追溯,功能与taxonkit list形成互补

    taxonkit lineage --data-dir path/to/reference -R -t -n -r taxid.file

    -R : 展示所有Rankname
    -t : 展示所有RankTaxID
    -n : 展示scentific name
    -r : 展示所有Rank的级别
    taxid.file : 注意每个TaxID放在一行

    6. taxonkit reformat

    重新整理输出的Rank的结果,一般跟在taxonkit lineage后面使用

    taxonkit lineage --data-dir path/to/reference taxid.file | taxonkit reformat -r "Missed_Rank" -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" --data-dir path/to/reference|awk -F "\t" 'BEGIN{print "TaxID""\t""Kingdom""\t""Phylum""\t""Class""\t""Order""\t""Family""\t""Genus""\t""Species"}{print $1"\t"$3"\t"$4"\t"$5"\t"$6"\t"$7"\t"$8"\t"$9}'

    -r "Missed_Rank" : 对每个TaxID来说,缺少的RankMissed_Rank来代替

    Note : 最小一级的名称是当前TaxID所代表的名称,后面的都会用Miss_Rank来补齐

    输出结果:


    输出结果

    相关文章

      网友评论

        本文标题:TaxonKit

        本文链接:https://www.haomeiwen.com/subject/nkaojrtx.html