美文网首页生信
HISAT: 一款快速的低内存的基因组比对软件

HISAT: 一款快速的低内存的基因组比对软件

作者: shenny_ | 来源:发表于2019-11-16 15:37 被阅读0次

    HISAT: 一款快速的低内存的基因组比对软件

    HISAT是一个高效的RNA序列比对软件。HISAT使用了基于Burrows-Wheeler transform 和 the Ferragina-Manzini (FM) index的索引组合,使用了两种类型的索引:基于全基因组区域的FM索引和局部的FM索引。与其他比对软件相比,HISAT具有速度快,准确率高等特点。HISAT支持不同长度的基因组序列,包括大于40亿碱基基因组。

    HISAT算法设计

    HISAT使用Bowtie2实现许多低一级的功能,比如FM index的构建和查询。HISAT使用了两种不同类型的索引:

    • 基于全局的FM 索引覆盖全部的基因组
    • 众多小的FM索引,每个索引覆盖64000bp。

    对于人基因组,HISAT创建了~4800个局部FM索引,每个索引之间有1024bp的overlap,共覆盖约三十一碱基。

    ​ RNA-seq序列可能会跨越很大的区域(超过1M bp)。并且会跨越多个外显子。HISAT将包含这种现象的reads分成了三种类型:

    1. long-anchored reads: 两个外显子至少比对上16bp.

    2. intermediate-anchored reads:有一个外显子比对了8-15bp

    3. short-anchored reads: 有一个外显子仅比对1-7bp

    image-20191116135549116.png

    全局FM索引对于short-anchored reads比对很困难,而局部FM index在比对这类reads时有很大优势。在将reads比对到一段较长的区域中时,HISAT可以使用局部索引比对剩余的区域,而不是使用全局索引。

    很多比对工具,大量的时间都消耗在这样的short-anchored reads和intermediate-anchored reads上(30%~60%),但是比对准确度或者成功率都不是很高,而HISAT在这一块很有优势。

    与其他比对工具的速度和准确度比较

    ​ HISAT,HISATx1, HISATx2分别使用了不同的参数。HISATx1使用one-pass方法,HISATx2使用了two-pass方法。模拟数据是100-bp rads,包含20 million挑reads。下图是不同软件每分钟处理的reads数。从图上看,HISAT速度有明显优势。

    image-20191116145345034.png

    检测准确度方面,HISAT灵敏度达到了93%以上,而HISATx2更是达到了99%以上

    image-20191116150602949.png

    剪切位点精度方面,模拟数据包含87944个剪切位点,HISAT的灵敏度高达97.3%,并且精度也高达04.8%

    image-20191116151054329.png

    参考文献:

    1. HISAT: a fast spliced aligner with low memory requirements

    相关文章

      网友评论

        本文标题:HISAT: 一款快速的低内存的基因组比对软件

        本文链接:https://www.haomeiwen.com/subject/lhpyictx.html