美文网首页宏基因组
宏基因组测序分析(十四) 分箱结果评估

宏基因组测序分析(十四) 分箱结果评估

作者: Bioinfor生信云 | 来源:发表于2023-09-27 21:08 被阅读0次

分箱结果可以使用 checkM 检查完整性和污染度。

checkM

基于数据库中构建好的单拷贝基因集和进化树,将bin定位到进化树中找到参考物种,基于谱系特异的marker gene(单拷贝),进行完整性和污染度进行评估。


  • 数据准备:上一步的分箱结果

参考脚本

# 运行checkM
checkm lineage_wf \
--threads 5 \ # 线程
--tmpdir ./ \ # tmp目录路径
--extension fa \ # 序列文件后缀
bins \ # 输入,分箱结果目录
checkm \ # 输出目录
> checkM.sh.log 2>&1 # 存储日志

分箱结果去冗余

计算资源充足的情况下,可以将所有测序数据一起进行组装,然后分箱。但实际操作中,由于内存限制,一般会分样品或者将生物学重复放在一起进行拼接。这样就会存在多个组装和分箱结果,需要对其中重复的 bin去冗余。这个操作可以使用 dRep 实现。

# 将所有分箱fasta文件存放在bin目录下
# 运行dRep去冗余
dereplicate out_dRep \ # 最小基因组长度,默认50k
--length 50000 \
-comp 75 -con 25 \ #最小的基因组完整度,默认75,最大的基因组污染率,默认25
-g ./bins/*.fasta

欢迎关注Bioinfor 生信云

相关文章

网友评论

    本文标题:宏基因组测序分析(十四) 分箱结果评估

    本文链接:https://www.haomeiwen.com/subject/pkaqvdtx.html