美文网首页
BUSCO从94%提升到98%+,他只做对了一个事,全网独家!

BUSCO从94%提升到98%+,他只做对了一个事,全网独家!

作者: 生信石头 | 来源:发表于2022-12-19 09:56 被阅读0次

很多做基因组方面研究的朋友,都经常会关注一个事情,大体就是「完美参考基因组」,这个完美基因组,或者是比如青铜级,黄金级,钻石级,gap-free 甚至 T2T 等等。这些其实都是序列层面。我相信,只要做过湿实验的朋友,多少都会遇见或者听过,比如某某,干了半年还是一年实验,连几个基因都克隆不好。原因是什么?基因结构注释太糟糕。无论基因组序列组装质量如何,基因结构注释有问题,直接设计引物,失去意义。因为你拿到的基因片段都可能是错的。所以「完美参考基因组」,其实不应该局限于序列水平,也应该更多关注「基因结构注释」。
至于,如何评价一个物种的基因结构注释好坏,指标有很多,其中最多人关注的,应该是「BUSCO」评估,尤其其中蛋白水平的评估。目前,绝大多数物种蛋白水平 BUSCO 评估,超过95%的应该是比较少。绝大多数人或许止步于 94%+。而实际上当你去仔细看看,这些指标下的基因结构注释,可能惨不忍睹。一个更高的 BUSCO 指标,往往会对应到更准确的基因结构注释。
当然,BUSCO 评估说到底就是基于序列比对,我们多少也有听闻一些朋友为了更好的指标,直接拿 BUSCO 蛋白评估集合的蛋白回贴到基因组上,暴力提高 BUSCO 值。这个有意义吗?也不能说没意义,但是就相当于,病人说他心痛,你说你就随便吃个止痛药,再痛再吃.....其实不是正解。
10月,推出了 IGV-GSAman,这是一款基于 IGV 源码(MIT License)魔改而开发出来的基因功能矫正神器。相比于市面几乎唯一可用的必须依赖于网页端的 Apollo 而言,GSAman 的整体性能更好更高。当然,主要得益于桌面软件,在一些系统资源的调度上有明显优势。
前两日,有朋友发送过来两张图稿,说实话,我属实吓了一跳。第一张是流程注释(电子注释)的评估结果。其实对于大多数物种的注释,也就到此结束了。也还可以的 94.5%。



不过这位老铁说要长期以这个物种为材料开展研究,于是他用了 GSAman 做了全基因组的人工注释矫正,前后两周不到时间,结果如下



而实际上,他说还有 4 条比较长的染色体没完成矫正。讨论猜想,或许全部完成矫正,难道 BUSCO 要上 99%?
对于这个结果,其实很容易引起怀疑,如果别人说,你这个就是直接针对 BUSCO 来搞的,如何处理?于是讨论了一下,简单用 TBtools 的 Advanced Circos,两三分钟出个Circos图

总的老说,非常均匀....几乎每个染色体的两端(中间是着丝粒区域),都有 GSAman 为 Source 的标签(也就是基因结构被人工矫正过了)。
Emmm,还真是一个大工程。也可以看到,其中还有 4 个染色体几乎没有动过,估摸着就是老哥说的还没整完的四条吧。

写在最后

完美参考基因组 = 完美组装结果 + 完美基因结构注释结果

相关文章

网友评论

      本文标题:BUSCO从94%提升到98%+,他只做对了一个事,全网独家!

      本文链接:https://www.haomeiwen.com/subject/kljyqdtx.html