美文网首页
2024-07-24 CD-hit,seqkit 按照ID提取序

2024-07-24 CD-hit,seqkit 按照ID提取序

作者: dashan1928 | 来源:发表于2024-07-23 14:36 被阅读0次

    宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列,

    再使用CD-hit 命令默认参数将序列进行去重复

    然后使用seqkit seq -i 获取序列的id

    再使用seqkit grep -f 获取原先每个bin中的fasta序列

    注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性

    相关文章

      网友评论

          本文标题:2024-07-24 CD-hit,seqkit 按照ID提取序

          本文链接:https://www.haomeiwen.com/subject/clzyhjtx.html