美文网首页染色体组装
基因组装 | hifiasm 输出结果文件细究

基因组装 | hifiasm 输出结果文件细究

作者: 生信石头 | 来源:发表于2023-07-28 10:42 被阅读0次

    基因组组装这块我看的不是很多,尽管也看过一些资料,跟朋友也讨论过。但仍然感觉理解不够深入。索性,自己直接肉眼看看,或许更为实在。

    hifiasm 输出结果有哪些?

    一般来说,用hifiasm组装基因组,纯合材料用- l0,非纯系材料,比如我们做园艺果树的,尽量是希望分出来两个单倍型,所以参数-l3,当然,分出两个单倍型,是默认参数,所以默认可以不设置。
    两个模式大体输出结果如下图:


    可以看出来,区别在于前者多输出了一个a_ctg而后者则多输出了hap1.p_ctghap2.p_ctg
    逻辑上,看过文献应该比较容易理解

    理解共同的输出文件

    r_utg

    r 代表 raw,也就是最初组装出来的原始结果。其中 utg 表示 unitig,或理解为初步组装且没有拆分气泡或者冲突的结果。


    p_utg

    p 代表 primary,基本上是在 raw 的基础上去除掉一些覆盖率低的连接(或叫气泡)。看起来简洁了不少,其实是少了 60000 条边(当然图太大,看不太出区别....不过确实是小了四分之一)


    或许高杂合材料里面,覆盖率低的区域,也可能是另一个单倍型区域?用于后续HiC挂载,可能也要考虑进去。在 p_utg 和 p_ctg 上的选择,或需要考量

    p_ctg

    p 代表 primary,ctg 代表了拆分结果。


    逻辑上 p_ctg 包含了全部单倍型结果(含 hap1 和 hap2)。事实上,这个文件在l0l3的表现不相同,可以从文件大小看出区别。个人感觉,l0下 p_ctg 约等于 canu 软件的组装结果;而l3模式下,p_ctg 比较接近于主要的一套单倍型结果,大体是hap1hap2中表现最好的每个contig的hap的组合。

    a_ctg

    a 代表 alternative,大体是拆分出来 p_ctg 之后剩下的就放在 alternative。

    hap1/hap2 ctg

    亦即两个单倍型的拆分结果。

    假如有 HiC 数据

    结果类似。phased的效果会好很多。

    相关文章

      网友评论

        本文标题:基因组装 | hifiasm 输出结果文件细究

        本文链接:https://www.haomeiwen.com/subject/mkwrpdtx.html