Shasta 生信工具箱: 9天完成11个人类基因组基于三代测序的从头组装
杂志:Nat Biotechnol.(IF:36.558)
三代测序Nanopore 因其长读长为基因组研究开创了新的时代。在多个模式生物中,Nanopore已经可以实现染色体水平的测序长度, 这对基因组的研究有着重大的意义。在刚刚过去的2020年,利用Nanopore超长读长测序,人类基因组X染色体从端粒到端粒的完整组装得以完成 (Nature,2020年7月)。这也是人类基因组计划开始后的20年来,科学家们完整组装成功的第一个染色体。对于这样庞大且复杂的基因组,尽管长读长测序可以产生更加连续的片段,对于研究者来说,组装的方法以及耗时仍然是一项挑战。本文针对Nanopore测序技术开发了新的基因组组装及打磨工具箱,名为Shasta。Shasta可以帮助实现人类基因组快速且高质量的组装。
概述:
此前有许多利用Nanopore 测序技术对人类基因组进行从头组装的相关报道,但这项工作往往要消耗150000 个CPU 时长,以及数周的时间。为了达成对人类基因组的快速组装,本文介绍了Shasta,一个基于长读长的组装工具,Shasta配套新的基因组打磨加工算法MarginPolish和HELEN。利用Nanopore测序和本文介绍的工具箱,作者在9天内从头组装了11个高度连续的人类基因组。组装结果可以达到在42kb N50 的63X覆盖率和大于100kb N50 的6.5X 覆盖率。Shasta 使用1个计算节点在6小时可以完成内完成单倍体人类基因组的从头组装。MarginPolish 和HELEN可以将组装好的单倍体基因组加工到99.9%相似度。总的来讲,本文介绍的新方法Shasta相较于其他方法表现出更好的准确性和更快的速度。
主要结果
1. 9天针对11个人类基因组测序
本文中所涉及的11个人类基因组来自1000 Genome 和 GIAB项目数据库。基因组的选择尽量保证等位基因的多样性。作者对该11个人类基因组进行 Nanopore 测序 (PromethION)和illumina测序,Nanopore 在9天的时间里完成了对11个基因组的测序,产生2.3 Tb的序列。测序深度达到每个基因组48X-85X(图1a)。读长的N50在28-51 kb之间 (图1b)。作者随后对测序数据与已有的人类基因组(GRCh38 )进行比对,通过计算比对相似度来确定测序的质量。从比对结果来看,相似度中位数和标准数分别是90%和93% (图1c)。每个基因组的在>10kb达到55X覆盖率,在>100 kb达到6.5X覆盖率(图1d),这主要是由于在进行长度选择时,大多数的片段集中在大于10 kb的部分。作者同时利用相同的方法在MinION上测序了人类唾液中分离的大分子重量DNA以此来验证该测序方法的有效性。测序结果产生了11 Gb的数据,读长N50 在28kb左右。
图1,Nanopore 测序数据
2. Shasta :针对长读长测序序列的组装工具
Shasta 组装工具的开发旨在提高基因组组装的效率,而相较于目前应用广泛的组装工具如Canu,Shasta的表现确实更快更强。在大多数Shasta的组装阶段,读长序列以聚合压缩的形式储存。在这种储存形式中,完全相同的碱基序列被压缩,以单一碱基加重复次数的形式被保存。比如GATTTACCA 会被保存为(GATACA,113121),这样做的好处是可以避免由相同碱基聚合而产生的错误,这种错误也是Nanopore测序中最常见的。这样的方法同时提高了组装的准确度(图1e)。作者同时也用了标记法来表示每一个序列。利用MinHash 算法来找出每一对相互重叠的序列中标记m出现的次数。序列比对中标记表示法的计算过程十分高效。Shasta在一个计算节点上运用大量的内存来进行计算。所有的数据结构都会被储存在内存中。通常情况下,该工具需要1- 2Tb的内存(组装人类基因组)。
3. 对Shasta结果的标准化评估
作者将Shasta的结果与其他组装工具进行横向对比。参与对比的基因组组装工具有Wtdbg2,Flye和Canu。四个组装工具同时对两个二倍体人类基因组(HG00733 和HG002 )和一个单倍体人类基因组(CHM13 )进行组装。横向对比的结果表明,Canu能够组装较完整的序列,即针对HG00733,HG002和CHM13的 NG50 值分别为40.6,32.3和79.5 (图 2a)。在连续度这个指标上Flye排在第二位,三个基因组的NG50 分别是25.2,25.9和35.3 Mb。Shasta排在第三位,NG50 分别为21.1, 20.2 和41.1 Mb。Wtdbg2 的连续度排在最后,NG50 分别为 15.3,13.7和14.0。
虽然连续度这一参数的考量下,Shasta的表现不如Canu,但连续度并不是衡量基因组组装的唯一标准。作者随后将组装的基因组与人类参考基因组GRCh38进行比对,发现Shasta组装的基因组相较于其他基因组不一致性少4.2 – 6.5 倍。将组装的基因组通过不一致的位置分解,会发现连续的变化小很多 (图2b)。而很大一部分组装基因组和参考基因组之间的结构变化其实是反映了这两个基因组中真实存在的差异性,而非组装错误。为了解决这个问题,作者把该分析集中在Y染色体上的特定区域,并且排除结构变化的干扰。结果显示Shasta仍然比起其他的工具表现出少于1.2X-2X的不一致性 (图2c)。这一结果表明,Shasta在不一致性这个指标上的表现要优于其他组装工具。
在组装基因的大小这一指标上,Canu的表现依然优于其他。Canu组装基因组平均为2.91 Gb,接下来分别是Flye 2.83 Gb,Wtdbg2 为2.81 Gb 最后是 Shasta 2.80 Gb。在去除了无法比对的序列之后,各个工具的差距变小。这说明在基因组组装过程中,Shasta相较其他工具来说更加保守,它可以组装出更多的能够直接比对的序列 (图2d)。
作者同时还利用BAC序列来对比不同的工具。结果表明Shasta可以连续组装起所有的47个BAC序列,Flye的表现与Shasta相似。而Canu组装的结果依然大于其他的工具。在碱基水平上,Shasta有最高的准确度。无论是在全基因组方面还是特定的区域上,Shasta的准确度相较于其他工具都更高。Shasta,Wtdbg2 和Flye都是在云端服务器上运行,这也比较容易对比他们之间的计算成本 (图2e)。Shasta每组装一个基因组需要耗时5.25小时,耗资70美元,而Wtdbg2 需要花费7.5倍的时间和3.7倍的资金,Flye需要花费11.9倍的时间和9.9倍的资金。作者估计了Canu的相关数值,Canu大概要花费19000美元和4-5天来完成一个基因组的组装。
图2,Shasta,Wtgdb,Flye和Canu的组装矩阵
4. 对复杂区域的连续组装
对于基因组组装中最难解决的复杂区域(MHC)的处理,也是衡量一个组装工具的重要标准。作者重新分析了对于CHM13和HG00733的组装以检测他们是否成功组装了这些复杂区域。结果显示,在单倍体基因组的组装中,四个组装工具都能够以一个完整的序列组装成功被测试的复杂区域(图3a)。对于二倍体基因组的组装,Shasta和Flye以两个序列片段跨度复杂区域,而Canu和Wtdbg2以一个序列片段跨度复杂区域(图3b)。为了解决HG00733的单倍体组装,作者将所有序列根据父系和母系遗传分离,然后再组装成单倍体基因组。对于四个工具来说,全基因组水平上的连续性都有所降低,但不一致性有所提高。并且单一的组装序列片段可以跨度复杂区域。
图3,与参考基因组相比,Shasta 针对MHC组装的质量
5. 基于神经网络的打磨工具
本文作者同时还开发了一个基于神经网络的基因组打磨工具,该工具旨在提高单个碱基水平上的准确度。这个工具流程包含两个模块:MarginPolish和HELEN。MarginPolish结合了forward-backward算法和一个成对的Hidden Markov模型,从而计算出一个成对比对的统计量。HELEN利用一个多任务递归神经网络来预测碱基种类和读长。图4描述了四种工具的详细的错误率。对于二倍体的HG00733,MarginPolish和HELEN达到了错误率的平衡。值得注意的是,大部分的错误实际上是由真是的结构变化造成的。对于大部分的基因组组装结果来讲,错误大多由插入缺失的错误造成,主要的原因是大量聚合碱基的存在。图4b描述了在基因组组装打磨过程中的每一步里,聚合碱基所产生的的错误率。而图4c描述了这四个工具在利用MarginPolish和HELEN打磨之后总体的错误率。这一结果说明了MarginPolish和HELEN也可以用来打磨提高其他工具所组装的基因组。图4d 描述了MarginPolish和HELEN的平均运行时间和花费。MarginPolish和HELEN一共花费107美元以及29个小时完成对基因组的打磨。
图4,对组装基因组的打磨
6. 基因水平上的基因组组装评估
作者利用比较基因组学注释工具箱来注释了组装好的基因组中的基因。结果显示Shasta组装的基因组在经过MarginPolish和HELEN的打磨之后几乎包含了所有的人类蛋白编码基因。与参考基因组的注释相比,HG00733和CHM13分别缺少了152和175个基因。而Canu组装的基因组包含了最多的基因数量,仅仅51个缺失。而Wtdbg2缺失了506个基因。
本文主要介绍了新的基因组组装工具Shasta以及打磨工具MarginPolish和HELEN。根据文章中标准化对比的结果,我们不难看出,这一工具确实为基因组组装提供了新的方法。在此前,Canu被认为是三代测序基因组组装的“行业金标准”,而本文所提供的结果也支持了Canu的组装质量。在一些指标上,本文的工具Shasta的表现并不优于Canu,但由于Shasta的高效性和实用性,这仍然是一个非常有用的工具。目前来看,测序行业的成本不断降低,科研工作者们可以用很低的价格完成测序,那么对大量数据的进一步分析就成为了下一个挑战。像本文阐述的Shasta这类工具无疑为基因组组装提供了更多的可能性。
文献信息:
Shafin, K., Pesout, T., Lorig-Roach, R., Haukness, M., Olsen, H. E., Bosworth, C., ... & Paten, B. (2020). Nanopore sequencing and the Shasta toolkit enable efficient de novo assembly of eleven human genomes. Nature Biotechnology, 1-10.
更多精彩生信文章可关注生信人网站 生信人
更多生信分析意向 定制可填写生信意向表单 生信分析意向表
网友评论