pubmed:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7606350
doi: 10.1016/j.humimm.2020.04.009
摘要
下一代测序技术(NGS)已被广泛用于临床HLA分型和高级免疫遗传学研究。目前的方法在解决涉及远处变异位置的顺式-反式歧义方面仍面临挑战,而且周转时间受测试量和批次的影响。纳米孔测序可能成为现有HLA分型选择的一个有希望的补充。牛津纳米孔技术公司(ONT)的MinION测序仪提供的技术可以记录DNA/RNA链通过跨膜孔转移时的离子电流变化,并将信号转化为序列读数。它的特点是库的制备简单灵活,测序读数长,测序设备便携且价格低廉,测序速度快,实时性强。然而,测序读数的错误率很高,仍然是其广泛应用的一个障碍。这篇评论文章将简要介绍这项技术,然后重点讨论利用纳米孔测序技术进行高分辨率HLA分型和免疫遗传学研究的机会和挑战。
关键词: 纳米孔测序,下一代测序,人类白细胞抗原,共识序列,测序错误
太长不看版:
二代测序用于HLA分型
优势
- 克服PCR drop问题
- 解决等位基因不平衡的局限
劣势
不能很好地解决远距离突变phasing时顺反歧义问题
三代测序用于HLA分型
优势
- 文库制备简单灵活(无需酶打断,即使是GC含量高的区域也能均匀覆盖)
- 测序读数长
- 设备便携
- 价格低廉
- 能够解决远距离突变phasing时顺反歧义问题
劣势
- 测序读数错误率高
- 同聚物错误(R10.3/10.4 nanopore可能提高均聚物的分辨率)
介绍
近年来,下一代测序(NGS)技术已经彻底改变了高分辨率的HLA分型。许多临床实验室已经迅速采用这些技术,以商业化的检测方法或真正的实验室开发的检测方法的形式对病人和供体进行HLA分型。两种类型的平台促成了HLA分型方法的转变:1)产生数百个碱基的短测序读数的平台,如罗氏454、Illumina和Ion Torrent,以及 2)产生数千个或更多碱基的长读数的PacBio平台。其结果是很好的缩短了周转时间,减少了模糊性,提高了吞吐量,以及更有成效的供体搜索结果。这些技术的实施也使免疫遗传学研究领域充满了活力,为最近的国际HLA和免疫遗传学研讨会提供了动力,并扩大了现有的HLA参考数据库。
然而,生物技术的创新从未停止。(科学家)正在开发不依赖于基于 PCR 的目标富集的替代 HLA 分型策略,例如 HLA 基因的混合捕获,然后是 NGS,以克服 PCR 丢失和等位基因不平衡的局限性(例如,来自布里斯班 CareDx 的 AlloSeq®Tx 17, 加利福尼亚州)。 新颖而强大的生物信息学工具不断涌现,可使用来自全基因组测序 (WGS)、全外显子组测序和 RNA 测序的数据推断 HLA 分型。 此外,(地球上)总会出现可能会产生重大影响的下一个小工具。
在这里,我们对纳米孔测序进行了简要回顾,重点关注其对 HLA 分型和免疫遗传学研究的潜在益处。 纳米孔测序的原型由 Branton、Church、Deamer 及其同事于 1990 年代初在他们的学术实验室中率先提出。 第一个商用纳米孔测序设备MinION于2014年由 Oxford Nanopore Technologies (ONT) 发布,此后已成功被独立实验室用于各种测序应用。
MinION设备的剖析及其工作原理
MinION设备上的纳米孔测序是由跨膜蛋白通道完成的,其纳米级的孔径刚好够单链核酸聚合物通过。该孔位于一个抗电膜上,该膜将两个电压偏向的隔间分开。在单链DNA通过孔隙的转移过程中,离子电流的变化可以被传感器连续记录。这些信号随后被分割成离散的事件,并通过计算破译成占据孔隙的核苷酸序列的变化。单链RNA也可以直接进行测序。化学的另一个关键组成部分是一种螺旋酶,或运动蛋白,它能解开双链DNA并将单链DNA拉过孔。这种可控的、类似棘轮的过程增加了信噪比,允许以单碱基的分辨率辨别核苷酸。
单条DNA链通过孔隙的平均转换速度为每秒450个碱基,这意味着对I类HLA基因的全基因扩增子(约4kb)进行测序的时间不到10秒。一旦一条DNA链被完全转移,同一个孔将立即可以对下一条进行测序。共有512个活性通道,每个通道由各自支架内的四组纳米孔组成,被嵌入一个MinION流动池。通过对依次通过流动池上数百个活性孔的DNA分子进行测序,可以实现高通量。流动池上的测序通道阵列安装在一个传感阵列和一个特定应用集成电路(ASIC)的顶部,后者通过连接器引脚与MinION的底座相连。整个MinION设备,包括流动池和底座,重约100克,可以装入一个普通大小的口袋。
根据所使用的文库制备试剂盒,从输入DNA样品到测序数据的工作流程需要几分钟到几小时。对于基于扩增子的文库,PCR扩增子通常被纯化和末端修复,然后在测序前连接到一个测序适配器上(图1A,右图)。Y型适配器的一条链和另一条链上的运动蛋白相关联,这使得文库片段可以被吸附到孔中并通过孔隙棘轮。将文库加载到流动池后,一台笔记本电脑或台式电脑通过USB端口与MinION设备连接,在测序过程中为MinION供电并控制它。分段的序列事件("斜线"),或原始的离子电流信号,然后用神经网络算法进行基础调用,并将其分成高质量(通过)或低质量(失败)的读数,供下游分析。
HLA分型技术的差距。(A)传统NGS(Illumina和Ion-torrent平台的商业检测)和纳米孔测序的工作流程比较。如果不进行复用,MinION可以选择等克分子进行pooling。(B) HLA-B基因座的部分覆盖图。使用基于酶的片段制备的文库可以产生不均匀的覆盖模式。在受影响的样本中,关键外显子的覆盖率可能很低(红框),导致错误或不明确(i)。相反,纳米孔读数覆盖整个基因,没有明显的变化(ii)。面板(i)和(iii)改编自参考文献;面板(ii)是在作者的研究实验室产生的。
纳米孔测序的优缺点
纳米孔测序是唯一不依赖于聚合酶催化的 DNA 合成的 NGS 技术。几个有吸引力的特性使该技术成为广泛临床和研究应用的有前途的选择。首先,快速灵活的文库制备方案可以有效缩短从样本到数据的时间。其次,纳米孔测序可以产生数千到数百万个碱基的极长读数,这仅受文库中 DNA 片段大小的限制。对于基因组学分析,这些长读适合phasing distant variants和interrogating结构变异和低复杂性区域,这一直是短读长测序平台的弱点。第三,MinION 的价格实惠,目前两个流动槽和一个测序试剂盒 (MinION Starter Pack) 的价格低至 1000 美元,使用户无需大量资本投资即可获得 NGS。第四,MinION 是一种便携式设备,能够在不受传统空间和时间限制的情况下提供 NGS。在埃博拉病毒病流行期间,它被运送到西非以对病毒基因组进行测序以实时监测疫情。最后,纳米孔测序不仅可以区分常规 DNA 碱基,还可以区分 RNA 中的尿嘧啶和具有表观遗传修饰(例如甲基化)的核碱基,这种独特的能力正在引领基因组学研究进入 RNA 和基因组 DNA 分子直接测序的未知领域。
纳米孔测序的上述特点可以潜在地解决HLA分型和免疫遗传学研究领域的一些未满足的需求,这一点将在以下章节中概述。另一方面,根据最近的报告,纳米孔测序读数的错误率约为10-15%,仍然明显高于短读测序平台。纳米孔读数的错误率受测序化学和寻基算法的影响,Rang及其同事最近发表的一篇优秀文章对此进行了评论。鉴于HLA基因的复杂性,以及密集的单核苷酸变体(SNVs)和偶尔的差异点,纳米孔测序在HLA分型中的成功将取决于读数准确性的持续改善和开发强大的生物信息学工具来克服任何持续存在的错误。
用于 HLA 分型的纳米孔测序
最近的一些出版物报道了纳米孔测序用于HLA分型的一些早期尝试。这些研究大多通过长范围(片段)PCR富集目标HLA基因,并使用各种文库制备方法和纳米孔测序化学方法对扩增子进行测序,所有这些都是在该技术本身快速发展的情况下进行。商业软件和学术生物信息学工具都被用来确定HLA分型,结果令人鼓舞(表1))。
使用纳米孔测序数据进行 HLA 分型的最新出版物
高效进行文库制备
在Illumina和Ion Torrent平台上进行测序的文库准备通常需要对目标HLA基因的PCR扩增子进行基于酶的破碎。在分析过程中,数百个碱基的重叠、短测序读数被叠在一起,以确定样品中存在的HLA等位基因。这种 "散弹枪 "方法通常需要一个由许多步骤组成的漫长过程(图1A,左侧面板)。在扩增和文库制备过程中,GC含量高的区域也可能被引入偏见,导致对关键外显子的覆盖不足(图1B)。这个问题可能与协议有关,并已被证明在某些协议下会导致几个HLA基因的模糊性或分型错误,但在同一实验室报告的其他协议下却没有那么明显的问题。通过每个基因座产生更多的测序读数来增加可用于分析的数据可能会减轻这种风险,但要以效率为代价。另外,在最初的PCR反应中加入了额外的引物,以便在某些检测中进一步富集关键外显子,以补偿文库制备过程中的负偏差。
相比之下,MinION可以对跨越整个HLA基因的长程扩增子进行测序,而不需要进行片段化处理。纳米孔测序也不需要在Illumina流动池或Ion Torrent平台的离子球颗粒上进行克隆扩增。因此,纳米孔测序的文库制备可以被大大简化(图1A,右图)。可以通过两种主要策略将条形码添加到长程扩增子中。首先,四聚体PCR可以使用具有5'适配器序列的HLA特异性内引物扩增目标基因,然后使用具有重叠适配器序列和独特条形码序列的外引物进行第二次扩增。其次,条形码片段可以直接连接到长(范围)扩增子上。接下来,带有马达蛋白和系带的测序适配器可以通过结扎的方式加入到DNA双链上,或者通过专有的快速连接反应在一分钟内完成。完成这些程序的动手时间通常为1-2小时。由于纳米孔方法消除了基于酶的断裂所固有的偏差,可以实现对整个目标基因的均匀覆盖,包括具有高GC含量的区域(图1B)。
过去有一种选择是对双链分子的两条链进行测序,这些双链分子的一端由发夹连接物连接;另一端与运动蛋白和系带连接到一个Y型测序适配器上。模板读数和连接的互补读数通过成对比对结合,生成所谓的2D读数。这种文库制备方案已不再可用。取而代之的是,可以通过在双联DNA的两端加入Y形适配体并对两条链进行独立测序来产生1D读数。这些读数的错误率比2D读数高,但1D方法提高了文库制备的效率和测序的产量。最近的几项研究已经证明了使用1D读数进行准确HLA分型的可行性。另一种被称为1D2的方法允许对双联分子的模板和互补链进行顺序测序,而不需要用发夹将它们物理连接起来。这种方法也能提高读数的准确性,但还不能与扩增子测序兼容。
为了提高纳米孔测序读数的准确性,Li及其同事开发了一种叫做INC-seq(分子内连接的纳米孔共识测序)的文库制备方法。双链DNA分子被自我连接以形成环状DNA分子,然后进行滚圆扩增。扩增子在MinION上进行测序,产生具有重复单元的序列。基于相同来源的重复单元的共识序列显示出超过97%的中位精度,允许在物种水平上进行精确的基于16S rRNA的细菌分析。据我们所知,INC-seq在HLA分型中的应用还没有报道。INC-seq类似于PacBio平台上的单分子实时(SMRT)测序,其中双链DNA分子被转化为单链环状DNA,在圆周上反复测序。产生多个相同来源的子读数,并可将其结合起来,为HLA分型创造高度准确的共识读数。
用于改进单倍型相位的长读数
尽管短线程测序平台上的NGS减少了涉及相距数百个碱基的变体的顺反歧义,但短线程测序读数对相距更远的变体的能力是有限的。在我们最近对Ion Torrent S5仪器上用于两场分辨率HLA分型的商业测定的评估中,我们在1685个基因型中的26个(1.5%)遇到了跨不同外显子的顺反性模糊,主要影响HLA-A、HLA-B、HLA-DPB1和HLA-DQB1位点。大多数模糊的基因型包括一个或两个罕见的等位基因,可以用NMDP代码报告,这种限制可能不是我们评估的方法或测序仪所特有的。对于Illumina测序文库,尽管读数长度较短,但用对端测序的方式加入较长的片段可以在一定程度上改善远处变异体的相位。
纳米孔测序的长读数可以很容易地phasing相距较远的变异位置。一个例子是基因型DQB1*06:03和DQB1*06:04与替代基因型DQB1*06:39和DQB1*06:41。由于横跨第2外显子和第3外显子的顺反不明确,这两种基因型无法用Ion Torrent的短读数区分。测序读数必须连接两个相距2668个碱基的变体位置,才能解决这个模糊问题(图2)。来自Illumina平台的成对读数可能也不能解决这些基因型,因为缺乏恰好跨越这些变体位置的文库片段。我们对DQB1的全基因扩增子进行了纳米孔测序,产生了平均长度为6654个碱基的测序读数,这些读数明确地支持在我们测试的一个样品中分配DQB106:03和DQB106:04(图2)。
图2 用纳米孔测序的长读数解决顺式-逆式的模糊性。DQB1的全长扩增子测序的读数与基因型DQB1*06:03:01:01和DQB1*06:04:01:01完全一致,覆盖范围均匀,但与替代基因型DQB1*06:39和DQB1*06:41不一致。顺式-反式的模糊性涉及到外显子2和外显子3的两个变体位置,这两个位置相距2668个碱基,Ion Torrent测序没有解决这个模糊性问题。fold coverage显示在每个覆盖率图的左上角。
经济实惠、可扩展且便携的HLA分型
上述文库制备和变异定向方面的优势并不是纳米孔测序独有的,因为PacBio平台也取得了类似的进展。然而,PacBio测序仪需要大量的资本投资和实验室空间,而纳米孔测序则消除了这种要求,使资源有限的小型HLA实验室能够获得NGS。如果纳米孔测序开始渗透到发展中国家的分子测试和HLA分型市场,这将不足为奇。
纳米孔测序的multiplexing能力和可扩展性也影响了该平台上HLA配型的成本。一台MinION设备在优化条件下每次运行可产生高达50Gb的数据(https://nanoporetech.com)。这一数据产量在理论上可以为11个HLA基因提供2000倍的覆盖率,在一次运行中大约有50个样本multiplex,即使将运行时间缩短一半至24小时,并排除不能被基线调用的低质量读数(约50%)。目前,使用ONT公司的PCR Barcoding试剂盒可以索引多达96个样本。上述的数据输出和multiplex能力可能适合大多数医院HLA实验室的需要。但如果需要更高的吞吐量,该平台可以通过GridION和PromethION设备进行扩展,每个设备可以分别产生250Gb和5.2Tb的数据。
(24小时11个HLA基因,2000X覆盖,50个样本,共50G数据)
在另一个方向,纳米孔测序也可以用Flongle来缩小规模,这是一个有126个通道(相对于MinION的512个)的较小的流动池,与一个可重复使用的适配器一起使用。几乎与测序通道数量的减少成正比,Flongle的价格大约是MinION流动池的四分之一。每个流动池的价格不到100美元,每次运行时Flongle可以产生高达2Gb的数据。当对扩增子进行测序时,我们每次运行经常获得0.2-1.6Gb的数据,这取决于有多少库被加载到流动池上。更具未来感的是流水线上的SmidgION,它可能是最小的测序设备,可以插入智能手机进行测序。有了这些更小、更便宜的流式细胞,在小批量的样本上进行HLA分型的NGS,或在完全不分批的单一样本上进行NGS,将是负担得起的。De Santis及其同事使用Flongle流式细胞成功实现了11个HLA基因座的单样本分型。这种前所未有的灵活性将使测试量小的实验室以及需要选择紧急高分辨率HLA分型的大型实验室受益。
快速、实时的 HLA 分型
纳米孔测序不需要像Illumina或Ion Torrent平台那样用固定的测序时间来完成预定的周期数。相反,测序读数可以实时生成和调用基数,然后进行下游数据分析。这些特点使得通过测序快速进行HLA分型成为可能,因为需要多少时间来产生足够的读数覆盖率以满足预期的应用。我们观察到,在MinION R9.4流动池上测序的半小时内可以产生覆盖全长I类基因的数千条长读数,并且可以利用这些数据确定准确的HLA分型(图3)。考虑到整个HLA分型过程,包括DNA提取(约1小时)、PCR富集目标(约3小时)、ONT文库制备(约2小时)、纳米孔测序(约0.5-1.5小时)和数据分析(约0.5小时),在ONT平台上开发一种检测方法,在几小时内通过NGS完成高分辨率的HLA分型变得现实。话虽如此,不同的测序速度可能会有很大的不同(图3,比较左、右图),为了实现可预测的数据输出,流程的标准化将是必要的。
在MinION上对I类HLA基因进行快速测序。使用R9.4 MinION流式细胞对样本1(左图)和样本2(右图)的三个I类HLA基因的全基因扩增子1D库进行了两次独立的测序。高质量测序读数的数量(右轴)和基于关键外显子的分型结果的准确性(左轴)随时间变化而变化。两个样本的共识序列在15分钟内与参考等位基因(外显子2和3)的序列完全匹配。在1、5和10分钟内,样本1的共识序列和参考序列之间的错配总数为1、1和1,样本2为4、4和1。
此外,在多重测序分析中,每个样本和每个位点的目标测序读数数量可能会因PCR试剂和文库汇集过程的精度而有很大差异。 确保所有目标基因和样本的平衡表示以最大限度地提高基于NGS的HLA分型的多重能力至关重要。 虽然引物组合的优化和过程标准化至关重要,但目标扩增子的平衡测序有可能通过Loose及其同事开发的实时选择性测序在ONT平台上实现。 该过程是通过开源“Read Until”软件实现的,该软件将离子电流追踪(分段的顺序事件或“波浪形”数据)与波浪形空间中的参考序列实时匹配。 如果为前250个“事件”识别出正确的匹配,则扩增子被视为来自目标区域,并将被选择性地排序,直到达到预先指定的目标(例如,特定的覆盖深度)。 来自脱靶区域的扩增子被相应孔隙中的电压反转所拒绝。 来自已被充分覆盖的目标区域的扩增子也被拒绝。 该方法有效地优先排序多个目标区域并标准化它们的覆盖率,这将有利于多个HLA基因的基于扩增子的分型设置。 尽管该方法似乎对计算要求很高,但它有可能针对更广泛的应用进行优化。
生物信息学
使用长而嘈杂的纳米孔测序读数进行 HLA 分型需要生物信息学解决方案,不同于那些为从 Illumina 和 Ion Torrent 平台获得更短但更准确的读数而设计的解决方案。最近发表了一篇关于使用 NGS 数据进行 HLA 分型的生物信息学的优秀而全面的评论。本节将重点介绍使用纳米孔读取进行 HLA 分型的生物信息学方法。
第一次尝试通过早期版本的 MinION(R7.3 流动槽)上的扩增子测序对 HLA-A 和 -B 基因进行分型,但没有成功,四个等位基因中有四个被错误分配。结果可以用早期纳米孔读取的高错误率和当时缺乏定制的生物信息学工具来解释。GATK HLACaller 最初是为 454 平台的短读取而设计的,在本研究中用于分配 HLA 等位基因,结果证明该算法与容易出错的纳米孔读取不兼容。随着测序化学和碱基识别方法的不断改进,使用递归神经网络算法进行碱基识别,R9.4/R9.5 流动槽的 1D reads 的读取错误率一直徘徊在 85-90% 左右。随后使用这些噪声读数进行 HLA 分型的努力探索了如下概述的三种主要策略:1) 一致等位基因匹配,2) 基于图形对齐的等位基因分配,以及 3) 等位基因特异性读数聚类和分层评分。
在足够覆盖的情况下,共识序列可以有效地纠正单个纳米孔读数中的随机错误。使用 Canu、Freebayes、Nanocorrect 和 Racon 等工具,单独使用纳米孔读取对同源单倍体样品生成了高质量的共有序列。例如,Loman 及其同事开发了 Nanocorrect 以从头组装大肠杆菌 K-12 MG1655 基因组,并开发了 Nanopolish 以使用波形(信号级)数据改进组装。该方法以约 29 倍的理论覆盖率实现了 99.5% 的核苷酸同一性,展示了克服读取级噪音的潜在途径。对于通过 MinION 上的扩增子测序进行的基于一致性的 HLA 分型,我们开发了 Athlon 管道,首先通过两个过程在 I 类 HLA 位点识别一个(纯合)或两个(杂合)候选等位基因:1)读取映射到集合IMGT/HLA 数据库中的已知参考序列,以及 2) 比较抗原和等位基因水平的总读取深度。接下来,使用 Freebayes用于重新排列到每个候选等位基因的读数。最后,将共有序列与 IMGT/HLA 数据库进行比较,并选择最匹配的等位基因进行最终分配。这项概念验证研究考虑了编码抗原识别域 (ARD) 的外显子 2 和 3。在此分辨率下,Athlon 使用来自 R9.4 流动槽的2D读数或1D读数实现了 100% 的准确度。尽管结果令人鼓舞,但如降采样分析所示,需要相对较高的覆盖率(每个位点≥ 1000 个 1D 读数)。除了 2-field 级别的分型分辨率限制(仅考虑管道的关键外显子),Athlon 可能容易受到等位基因丢失的影响,具体取决于文库中的等位基因平衡,并且在发表时无法处理 II 类 HLA 分型。即使在纳米孔读取的共识序列和基本事实之间的同一性接近99.9% ,对于典型的 I 类等位基因(全长约 4,000 个碱基)的共识中可能存在大约 4 个错误碱基,这将使最终等位基因分配。当 Athlon 将分析限制在总长度小于 600 个碱基的关键外显子时,这种效果可能不明显。如果这些残留误差代表纳米孔测序化学或碱基调用方法固有的系统误差,则可能难以完全消除。
图比对策略不是将测序读数映射到参考序列集合,而是识别测序读数和群体参考图 (PRG) 之间的线性比对,该参考图将已知参考序列组合到目标基因内变异的生成模型中。对于最终 HLA 类型的推断,对所有比对进行评分,并报告 G 组分辨率下最可能的潜在等位基因对。该策略最初作为 HLA*PRG 实施,用于来自 Illumina 平台的全基因组测序 (WGS) 数据,并在分析的 158 个等位基因中实现了 99.4% 的准确率。HLA*PRG 的一个警告是其高计算要求。一个改进的实现,HLA*LA,允许通过逐步过程优化投影在 PRG 上的线性对齐,包括对齐检查、抛光和扩展。HLA*LA支持分析更多样化的NGS数据类型。与来自 Illumina 平台的外显子组和低覆盖率 WGS 数据相比,HLA*LA 与其他变异感知比对方法(包括 HLA*PRG、Kourami 和 xHLA 相比显示出同等或更高的准确性)。重要的是,HLA*LA 是唯一一个基于图形对齐的程序,已被证明可以成功分析来自 PacBio 和纳米孔平台的noisy long reads,目标测序数据的准确度范围为 95% 到 100%。如果使用额外的纳米孔测序数据进行验证,图形对齐方法可以为 G 组分辨率下的 HLA 分型提供一个极好的选择。
Klasberg 及其同事最近报道了用于基于扩增子的 HLA 分型的 nanotyper 管道,其特点是读取聚类和分层评分。使用这种方法,纳米孔reads首先被映射到目标基因的通用参考,然后聚集到等位基因特异性reads集中。聚类是基于多态性位置实施的,这些多态性位置具有相位信息并且不太可能是测序伪影。接下来,每个等位基因特异性组中的读数用于创建多序列比对,最终基因型由分级评分确定,分级评分优先考虑关键外显子,然后是非关键外显子,然后是非编码序列。作者确定了 94 个样本中的 4 字段 HLA 分型,这些样本以 Illumina 和 PacBio 测序生成的基因型为基准。I 类基因的一致性率为 99.4–100%,HLA-DQB1 的一致性率为 95%,其中 60% 的结果是明确的。确定了两个主要的歧义来源,一个是 3'-UTR 的不完整覆盖,另一个是由于未能区分不同长度的均聚物轨道。随着该方法的不断成熟,特别是对于所有相关的 II 类位点,纳米孔测序可能成为超高分辨率 HLA 分型的有力竞争者。
除了上述学术生物信息学工具,一些商业软件如 SeqPilot(JSI medical systems GmbH,德国)和 NGSengine(GenDx,乌得勒支,荷兰)也被用于分析纳米孔测序数据以进行 HLA 分型,并取得了可喜的结果。 然而,均聚物错误将继续成为该应用中的主要挑战,因为扩展的均聚物轨道(> 5 聚体)通过纳米孔的易位不会引起离子电流信号的变化; 由于易位速度不均匀,无法可靠地推断出均聚物区域内的碱基数量。 一种折衷方案是在等位基因分配期间将这些困难区域排除在决策制定之外,尤其是当它们位于内含子中时,并接受增加的歧义。 纳米孔读数相对较高的错误率和同聚物问题也使得确定现有数据库中不存在的新等位基因的存在具有挑战性。 结合来自纳米孔测序和其他方法的数据的混合共识方法在这种情况下可能有用,可以同时实现出色的定相和准确性。 为了最终根除问题,纳米孔设计和碱基识别方法的创新将是必要的。最新的 R10.3 纳米孔具有更长的通道,具有相互分离的双识别位点,以提高均聚物轨道的分辨率。 这一新发展的全面验证和整合可能会提高纳米孔测序的性能,并在不久的将来使该技术有资格用于临床 HLA 分型。
结论和未来方向
纳米孔测序是一项独特的技术,它通过独立于核酸合成的化学方法对 DNA/RNA 链进行测序。它有可能提供快速、便携且廉价的高分辨率 HLA 分型,并且没有顺反歧义。文库制备过程简单灵活,为创新提供了沃土。纳米孔读取的长度仅受文库片段长度的限制,文库片段可以跨越整个 HLA 基因和转录本。该技术还具有直接检测表观遗传修饰的能力,这是一个了不起的突破,可能会导致免疫遗传学研究的新发现。
纳米孔测序在临床分子检测和HLA分型中广泛应用的最大障碍是测序reads的高错误率。通过纳米孔测序进行 HLA 分型的累积样本量在文献中仍然很小,与其他 NGS 平台测序的样本数量相比相形见绌 4 , [6]]. 此外,现有 NGS 平台的出色性能提高了我们对以近乎完美的准确性进行全基因表征的期望。纳米孔测序必须满足现有 NGS 平台制定的高标准,才有资格进行临床 HLA 分型。为了实现这一目标,需要新颖的生物信息学工具和经过验证的商业软件包来从嘈杂的纳米孔读数中生成准确的分型结果。并且,随着纳米孔设计和碱基识别方法的不断改进,纳米孔测序可能会在不久的将来实现为 HLA 分型和免疫遗传学研究提供强大且多功能的平台的承诺。
phasing distant variants:phasing可以认为是变异定向、基因定相、基因分型、单倍体分型、单倍体构建等国车过,指二代测序无法较好地将来自同一亲本的SNP连接起来,在这里三代测序能够较好地克服这个问题。
cis-trans ambiguity:DNA-based typing of HLA alleles occasionally results in the inability to assign a specific allele because of ambiguity in associating two or more polymorphisms to the same or to alternate homologs (cis/trans ambiguity). 相对同一染色体或DNA分子而言为“顺式”(cis);对不同染色体或DNA分子而言为“反式”(trans)(来自百度百科词条:顺式作用元件)。其它参考https://www.gendx.com/SBTengine/Help_220/hs290.htm
G group resolution:G 组分辨率决定编码肽结合凹槽的外显子序列,即 I 类和 II 类基因的外显子2和3。
homopolymer error:Homopolymers are stretches of mono nucleotides (DNA bases) greater than two bases long which occur together. So for instance, 'ATCCCCGC' has a homopolymer of length 4 (base 'C'). These stretches are quite infamous for being sources of errors while sequencing DNA. 参考https://medium.com/@sanatmishra1/homopolymers-repeats-errror-eror-error-137d69031f30
关于1D/2D/1D2
Oxford Nanopore Technologies 开发的 1D、2D 和 1D2测序方法的示意图。 使用一维化学时,只有模板链(蓝色)被运动蛋白(绿色)穿线。 互补链(红色)被丢弃并测序。 当使用 2D 化学时,模板和补体都被测序,因为它们通过发夹(黄色)连接在一起。 1D2化学也允许对两条链进行测序,但不是连接两条链,而是在对模板进行测序时将互补链拴在膜上。 随后,互补链被吸入,系绳被拉松。
网友评论