宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列,
再使用CD-hit 命令默认参数将序列进行去重复
然后使用seqkit seq -i 获取序列的id
再使用seqkit grep -f 获取原先每个bin中的fasta序列
注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性
宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列,
再使用CD-hit 命令默认参数将序列进行去重复
然后使用seqkit seq -i 获取序列的id
再使用seqkit grep -f 获取原先每个bin中的fasta序列
注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性
本文标题:2024-07-24 CD-hit,seqkit 按照ID提取序
本文链接:https://www.haomeiwen.com/subject/clzyhjtx.html
网友评论