一句话总结,组装深度建议高于30X,N50建议高于11Kb,否则会出现严重的片段化。
最初参加三代组装培训的时候,课程老师建议Canu使用所有数据进行组装会比较好。因为我组装基因组比较小,计算成本低,所以大部分的时候我都是用100X左右的数据进行纠错加组装。但是最近组装的时候,却发现如果我使用所有数据,最后结果会有更多的错误组装。这种错误可以用一个成语进行概括,“三人成虎”,也就是原本不应该连接的两个contig,如果有一个错误的read提示这两个contig有可能连接,或许我们还不相信,但是如果出现了4条(但是原来的阈值还是2),那么你就会认为这两个地方应该连在一起。
最近区树俊博士发表在Nature Communication上文章从PacBio测序的深度和长度出发,测试了Canu、Falcon等软件的组装表现。
统计表我比较关注是不同深度下的组装大小,从附录的表2里,我们不难发现,深度的增加会提高contig的总长度,例如Falcon从35X提高到44X之后,基因组增加了0.02G,也就是20M。
不同组装参数这篇文章只是测试了PacBio数据的表现,计算力比较够的朋友还可以测评下Nanopore数据。
之前在写组装软件的使用教程时,也想过测试不同软件在不同物种上的表现,根据重复序列、基因组大小挑选不同物种,然后测试不同软件的几个不同参数的表现。只不过我只有一台服务器,算力不够,就暂时放弃了。
网友评论