美文网首页基因组学生物信息
三代校正工具LoRDEC原理

三代校正工具LoRDEC原理

作者: 小潤澤 | 来源:发表于2020-08-30 21:01 被阅读0次

    前言

    三代长读长测序的主要错误有随机错误和Indel

    解决这类问题的思路主要有两个:1.利用三代数据自校正;2.利用二代短读长数据校正三代长读长数据
    软件合集:


    具体可以点击here进行查看

    LoRDEC

    LoRDEC这款软件是2014年发表在bioinformatics的一款软件,LoRDEC: accurate and efficient long read error correction
    它是一款利用二代短读长数据校正三代长读长数据的软件

    1.二代数据错误

    二代数据的错误体现在读长若干碱基发生错误,那么如果你的测序深度足够,那么这类错误很容易被校正
    当然还有插入和缺失的错误,可以参考《A survey of error-correction methods for next-generation sequencing》

    2.三代数据错误

    正如开头所述,三代长读长测序的主要错误有随机错误和Indel

    3.原理

    通常来说,由于二代测序成本低,可以测取一定深度的数据,那么该软件的原理是将二代的读段分解成k-mer,利用德布鲁因图对三代数据进行校正

    下图是k=3,3-mer:


    那么将二代数据的读段利用德布鲁因图,以3-mer将其分解。我们之前说过,三代长读长测序的主要错误有随机错误和Indel,那么如下图:



    我们把易错的区域定义为weak区(图中直线部分),没有错误的区域定义为solid区域(图中矩形部分),那么我们利用二代数据的k-mer依据德布鲁因图对这些weak区域进行校正,从而校正这些随机错误和Indel
    如图b,二代数据的k-mer依据德布鲁因图校正三代数据的错误

    使用

    详细使用方法可以参考其主页“https://gite.lirmm.fr/lordec/lordec-releases/wikis/home

    相关文章

      网友评论

        本文标题:三代校正工具LoRDEC原理

        本文链接:https://www.haomeiwen.com/subject/nlgesktx.html