美文网首页基因测序行业技术分享与行业分析
“完美”的测序技术会出现吗?

“完美”的测序技术会出现吗?

作者: 基因Share | 来源:发表于2020-04-20 23:09 被阅读0次

    ​大家好,今天我们跟大家讨论的话题是“完美”的测序技术,既然讨论“完美”,那么就要先确定几个衡量完美的主要标准,这里我根据自己的理解给出了四个,并从技术层面,根据重要程度进行了排序:1.尽可能保真 > 2.尽可能完整> 3.尽可能高效 = 4.尽可能的简洁。

    我们先对这4个主要衡量标准进行名词解释:

    “保真”是指该测序技术的准确性。

    “完整”则包含了该测序技术可稳定实现的读长和是否可以直接识别碱基修饰信息这两点。

    “高效”是指单位时间该测序技术可以实现的数据产出。

    “简洁”是指实现该测序技术所依托的硬软件设备的成本、体积、配套以及运行环境要求。

    说到这里,可能很多朋友会提到还有单次测序通量和试剂成本这两个非常重要的评价标准,如前所述,我们今天主要是从技术角度进行评估,测序通量和试剂成本这两个标准更偏市场和商业角度,所以并未纳入今天的衡量标准。但我个人认为,假如某种测序技术在以上四个技术标准上具有优势,那么该测序技术的测序通量和试剂成本就会朝着满足市场需求的方向快速进化。

    既然“完美”的评价标准已经基本确定,那么我们就来简单的评价一下目前市面上几类主流商用测序技术。之前跟冯同学在讨论测序技术分类时,我们一致认同一个非常重要的技术分类角度——该测序技术是否依赖检测荧光信号来完成序列识别。我从这个分类角度对目前主流的测序技术进行简要的二分类,并根据四个标准对各测序技术进行主观评分。(关于详细的高通量测序技术分类标准,大家可参考前期文章:One PIC系列:最新版高通量测序技术分类树

    表1主流测序技术完美指数统计表(满分20星)

    从上表可以看出,PacBio(CMOS感光)和Oxford Nanopore两家公司的测序设备(也就是目前主流的单分子实时测序平台)的完美指数位于前二,那么接下来我们从测序原理和未来技术优化方向两个层面对它们进行分析。

    「PaBio测序原理」

     

    图1.SMRT Cell ZMW结构示意图

    PacBio SMRT测序原理我们在此简单叙述,更详细的内容大家有兴趣可以回顾前期文章:Pacbio测序原理及SMRT bell文库构建流程简述,PacBio测序最核心的地方在于它所设计的基于ZMW(Zero Mode Waveguide)的SMRT(Single MoleculeReal-Time)测序。ZMW中文译为零模波导孔,这个词大家肯定不陌生,那么它为何叫零模波导孔呢?今天我为大家简单科普一下,首先,我们可以将任何传递电磁波(光波也是一种电磁波)的线性结构叫做波导,那么图1中这个圆柱体(纳米级通道)就是一个圆管波导,但是如果我们向圆管底部发射光波且该光波的波长>圆管波导直径的1.7倍(即入射光波长>1.7d)时,则该光波将无法通过该波导,而是在圆管波导入口处产生衰逝波,所以对于这种波导中没有光波传输的模式,我们称它为“零模波导”。

    如图2,正是ZMW这种结构,使得从芯片底部射入的红绿混合激发光(532nm,Green;642nm,Red)无法穿过ZMW,靠着产生的衰逝波照亮孔底部仅仅大约20~30nm高度的区域,而这个区域(见下图)正是DNA聚合酶和待测模板发生聚合反应的地方,这就像是在舞台上,追光灯只照亮主角在的地方(ZMW跟Helicos公司单分子测序技术使用TIRF显微镜达到的是同样的效果,入射光只能照亮极小的反应空间,将反应体系中光学观测区域大大缩小,为实现单分子测序奠定基础)。

    图2.ZMW底部实时聚合反应示意图

    PacBio测序技术在“完整”标准上获得了4星,实现单分子长读长测序除了我们上面介绍的ZMW芯片设计以外,还有以下几点

    第一,不断优化改进的DNA聚合酶,使固定在ZMW底部的DNA聚合酶在激发光持续照射等损伤条件下仍保持高活性。

    第二,独特的荧光标记方式PhosphoLinked Nucleotides技术,PacBio将荧光基团标记在dNTP的γ’-磷酸上,荧光基团在聚合反应中自然脱落,完成连续无损聚合。

    第三,采用相机高速录影(Movie)或CMOS感光方式连续收集整张SMRT Cell荧光信号。

    第四,PacBio另外一个重要的特征是在聚合过程中每合成一个碱基都实时产生一个脉冲峰,两个相邻的脉冲峰之间的距离(Interpulse Duration-IPD)反映的是碱基修饰状态,这使得PacBio测序技术在提供序列信息的同时提供了实时的碱基修饰信息。

    在“保真”标准上获得4星PacBio测序平台,依托的是其CCS(Circular Consensus Sequencing)测序模式,即现在所谓的HiFi测序模式使得环形一致性序列准确度达到较高的水平。

    图3.PacBio HiFi Read测序模式示意图

    「PacBio优化方向」

    那么Pacbio测序技术有哪些主要的优化方向呢?我们可以看到其在“高效”和“简洁”两方面评分较低,具体内容我总结如下:

    第一,拥有更多ZMW的SMRT芯片和多规格ZMW的SMRT芯片(原型机0.003M→RS 0.075M→ RSII 0.15M→Sequel 1M→ Sequel II 8M,虽然我们可以看到从RS到Sequel II,SMRT Cell的理论通量已经增加了100倍,但仍然是不够的),更高的ZMW利用率(进一步优化P1比例)。

    第二,提高HiFi Read测序模式的数据利用率。目前PB每张芯片测序的平均酶读长(Polymerase Read)能达到80kb甚至更高,对于转录组和扩增子测序这种插入片段只有几kb的应用,HiFi Read测序的Pass数存在着冗余。我们看到华大基因针对这个问题,去年推出的首尾连接建库法取得了非常不错的效果。

    第三,仪器需要进一步小型化。2011年PacBio的第一款商业化机型RS看起来就像机场安检使用的X光机,主要是其复杂、昂贵、体积庞大的光学系统限制了其机器小型化,但就算是今天的采用了CMOS感光技术的Sequel/Sequel II测序系统体积也与一台超低温冰箱大小相当。

    第四,进一步开发直接RNA测序等其他检测模式。例如直接RNA测序和核糖体翻译动力学研究等。

    另外,Pacbio还需加大软件层面的开放力度,PB官方有一个SMRTLink套件,能够满足基本的数据分析需求,数据格式也从H5更新到用通用的BAM格式,但是在Basecalling、CCS calling的软件和算法相对封闭,如果能够更多的开源让第三方团队参与到相关软件的开发中,估计会加快相关生态的成熟。

    图4.PacBio RS and RS II复杂的光学系统

    「Oxford Nanopore测序原理」

    聊完PacBio,我们再来简单说一下Oxford Nanopore,ONT的测序原理可以被非常简洁的描述为:当DNA或者RNA单链分子通过两端带电压的纳米孔芯片时,不同碱基序列组合在纳米孔内部产不同的电流阻滞被传感器实时读取。大家可以参考下方测序原理视频。

    图5.ONT测序原理示意图

    ONT碱基序列识别依赖的是电信号,无需使用复杂、昂贵、体积庞大的光学系统,体积可以非常小巧,将“简洁”发挥到了极致,另外在“完整”标准上,其测序读长的理论上限几乎取决于你能提供的核酸分子的长度,所以ONT技术在“简洁”“完整”两项标准上基本是接近“完美”。

    「Oxford Nanopore优化方向」

    相比于PB来说,ONT似乎更开放一些,每年两次的大型专场会议London Calling(LC)和Nanopore Community Meeting(NCM)都会邀请众多科学家和开发者分享他们的成果,而且会在其官网上及时更新相关的讲座视频。在这两个会议上ONT都会由他们的CTO来介绍他们的研发进展和计划,主要围绕着机器更新、生化、算法来阐述。

    图6.ONT CTO介绍技术优化方向和最近研发进展

    ONT原理决定它拥有很强的扩展性,包括从芯片设计、样本制备、文库构建都有非常多的创新扩展性。我们从评分中也可以看到ONT在“保真”标准上是最需要提高的地方,目前ONT通过R10芯片和不断优化算法来实现提高准确率的目标。

    通过上文内容我们与大家简单讨论了两类单分子长读长测序技术的“完美”程度,其中PacBio技术的不足主要集中在“简洁”“高效”两个方面,而ONT则在“保真”方面需要进一步改进。表2进行了简要的总结。

    表2.PacBio与ONT测序技术总结

    长久以来大家有种习惯——对测序技术进行代际的划分,而ONT在对外的口径中不提自己是第几代测序,声称自己在做的是倒数第二代测序技术,那么是否会有所谓的最后一代测序技术呢?我们可以假设一下如果真存在这样一种测序技术,那么它需要单分子级别的测序,且有PacBio测序技术那样的高准确度单碱基级别信号输出又兼具ONT采集电信号的优势,我通过了解还真看到一个测序技术比较接近这个标准,下面为大家简单介绍一种更接近“完美”测序的技术。

     

    「Roswell测序技术介绍」

    Roswell团队依据分子电子学(Molecular Electronic),设计开发了一种被称为分子电路(Molecular Circuit)的特殊CMOS芯片来完成碱基序列信号检测,他们将单个DNA聚合酶(Polymerase)整合到分子电路中组成一种特殊的生物分子传感器(Biomolecular Sensors),通过查阅Roswell披露的专利文件,其生物分子传感器结构如图7所示:

    图7来源PCT专利:WO2017132567A1

    图8.Roswell测序原理示意图

    其大致的测序原理是将生物分子传感器(由一个连接两端电极的dsDNA 分子桥和一个通过Base-Biotin-SA连接到分子桥上的DNA聚合酶组成)与两端电极进行整合连接组成分子电路,在电极两端(Metal Eletrode)施加一个小于10V电压使得电流持续通过整个分子传感器,当分子传感器中的聚合酶根据待测模板合成互补链时,因为聚合酶的空间构象发生变化继而导致了流经整个分子传感器的电流发生了波动,通过分子电路的信号转导系统记录这种电流变化,后期经过计算机算法对电流变化的pattern进行解码就得到了序列信息。是不是非常巧妙。

    图9来源PCT专利:WO2016210386A1

    我们可以看到Roswell测序原理结合了PacBio和ONT的优点,但其原理同时决定了不会有它们的缺点,确实离”完美”更进一步。

    半导体工业技术的高速发展决定了其芯片制程可以达到极高的密度,因此我们可以推测Roswell测序技术如果可以完成商业化,在测序通量和成本上也会极具竞争力,虽然目前Roswell还未公开仪器参数和可参考的测序数据,但是它的原理路线确实为我们展示一种“完美”测序技术的雏形,一种新的可实践的框架。

    现在我们可以重新来总结一下:要达到”完美”测序总的来说要在单分子水平的单碱基分辨率上来检测核酸分子的自然聚合或者运动。从技术发展趋势上来说是慢慢的从光学转变到电学,依托光学系统的测序设备不可避免的需要大量的元器件或者增加操作步骤来提高信噪比,而纳米孔或者分子电子学在理论上却少有类似问题困扰。被广泛采用的优秀技术,其原理都是极其简单的,因为原理决定了一个技术的天花板,我相信后续也会有越来越多顶级的纳米、材料领域的人才投身于基因测序技术的研发中来,而我们也将离”完美”更进一步。

    「延伸讨论」

    然后我们再简单谈一下测序技术的应用领域,近年来单分子长读长测序技术在基础科研市场已被广泛应用,目前来说测序技术商业化最成熟的方向应该就是基于cfDNA的医学检测了,我们都应该听过这样的一个说法:cfDNA长度不过一百多bp,用短读长测序平台已经完全够用,不需要单分子长读长测序。简单讲这样理解没有问题,那是否单分子测序就真的在这个方面没有用处呢?其实并非如此,相反个人觉得单分子测序在这个领域拥有独特的优势。

    例如近年来,我们对cfDNA产生机制的研究越来越深入。cfDNA的产生机制可以简单概括为核小体剪切模式变化。机体的不同组织或不同疾病状态下,核小体周围甲基化水平的不同而导致了染色质片段可及性不同,这决定了核酸酶切割位置和识别motif的偏好并最终体现在cfDNA的片段长度、分布、断点 motif、甲基化水平的差异上。这也叫意味着机体不同的组织或不同疾病状态下所产生的cfDNA拥有独特的Pattern,我们使用高分辨率的单细胞单分子测序数据来完成cfDNA产生模式的研究,可以更好的指导下游应用。

    图10来源:The Biology of Cell-free DNA Fragmentation and the Roles of DNASE1, DNASE1L3, and DFFB

    综上,目前长读长和短读长测序应用方向各有侧重,技术上形成互补,长读长更多用于发现未知,基于发现的知识,短读长更多用来检测变化。目前没有一项测序技术可以解决所有问题、满足所有市场需求,这或许也是因为还没有一种成熟的“完美”测序技术出现吧?

    另外还有一个可能往往不会有太多人关注但又很重要的层面:

    随着单分子长读长测序技术的发展和应用,当我们获得了越来越多的高分辨率的完整基因组和基因表达信息后,我们究竟应该怎么来解释它们的相同与不同呢?我们看到引领生物信息发展的李恒等先锋科学家已经开始思考、设计、实践和着手解决类似变化所带来的问题了。

    作为测序技术发展的见证者和参与者,对未来测序技术的进步是充满激动且期待的,同时也觉得还有大量的工作需要大家去做。

    今天我们就分享到这里,以上内容仅代表作者个人观点,限于个人知识水平,难免有不足之处,欢迎大家交流指正。

    作者简介:

    石卓兴

    助理研究员

    中山大学眼科中心生物信息学实验室

    作者近年一直追随着相关领域技术的发展,拥有五年的单分子长读长测序领域的技术研发经验。目前专注于测序领域前沿的实验技术以及相关信息分析工具的开发,致力于结合单分子、单细胞、多组学数据来获得更高分辨率的生物学信息以更好的解答生物学问题。

    相关文章

      网友评论

        本文标题:“完美”的测序技术会出现吗?

        本文链接:https://www.haomeiwen.com/subject/npteihtx.html