美文网首页NGS那些大佬说的
bioinfo100-第2题-(2)barcode&illumi

bioinfo100-第2题-(2)barcode&illumi

作者: RachaelRiggs | 来源:发表于2020-04-24 19:19 被阅读0次

    参考
    zhn博客

    什么是barcode?

    给sequence打的标签tag = barcode;
    在过去的这些年,虽然NGS越来越成熟,通量越来越高,但是其精确度缺没有什么提高,在某些高通量平台甚至测序精确度有所下降。考虑某些生化水平的错误是不可避免的,约2009年,出现了一种创新的方法来识别和过滤错误信息,而不是整体上通过“preventing”的方法,来提高测序的准确度。

    这种方法,最后被称为single-molecule consensus sequencing, tag-based error correction or molecular barcoding(单分子共识测序,基于标签的错误校正,或者,分子条形码)。这种方法迅速称为了高精确度NGS测序应用的新标准。

    而其中的关键标签Tag,就被成为Barcode。

    作用:

    • 对于测得的两个相同的序列,通常不可能确切地确定它们是从同一起始分子来的的PCR拷贝还是从两个独立分子的PCR拷贝中读出了两个相同的序列。
    • 但是,如果在PCR扩增之前,将互相独立的Barcode标签连接到每个DNA片段分子上,这个标签就能够被所有从这条DNA原始序列扩增得到的Copy所携带,从而可以确定相同的reads是否来自共同的一个原始DNA片段

    什么是UMI&SMI?

    • It is worth noting that the concept of a molecular barcode (also known as a unique molecular identifier (UMI), a single-molecule identifier (SMI) or simply a tag) is different from that of an index sequence.
      得注意的是,分子条形码(也称为“唯一分子标识符”(UMI),“单分子标识符”(SMI)或简称为标签tag)的概念与测序流程中的index序列是不同的!

    • Molecular barcodes serve to uniquely label individual molecules within a sample, whereas index sequences are identical DNA labels that are affixed to all molecules in a given sample for the purpose of sample multiplexing.
      分子条形码用于唯一标记样品中的单个分子,而索引序列是相同的DNA标记,这些标记被附加到给定样品中的所有分子上,以进行样品多路复用。

    • More importantly, because all identically tagged reads will have derived from a common founder (provided that barcodes are designed carefully), any variation between their actual sequences must necessarily reflect technical errors
      更重要的是,由于所有标记相同的reads都将来自一个共同的DNA片段(假设条形码是经过精心设计的),因此它们实际序列(这些reads)之间的任何差异都一定反映了测序技术的错误

    • Tag-based error correction relies on this principle:
      基于标签的错误纠正依靠以下原理:

    -- independent reads sharing a common tag are recognized and grouped as amplicon copies of the same starting molecule;
    识别具有共同标签的独立读段,并将其分组为同一起始DNA分子的扩增副本;
    -- any sites of sequence differences among the reads are discounted as errors when forming a consensus sequence
    当形成共有序列时(含有共同barconde的序列被称为共有序列),reads之间的任何位置的序列差异都被作为错误而去除;

    • Over the past 5 years, molecular consensus sequencing has proved itself as the most impactful means for reducing NGS errors.
      在过去的5年中,分子共有序列测序已证明是减少NGS错误最有效的方法。

    • The variety of approaches developed to date can be grouped into three basic categories:
      迄今为止开发的各种方法可以分为三个基本类别:

    -- single-strand consensus sequencing;

    单链共有序列

    -- two-strand consensus sequencing;
    双链共有序列

    -- and duplex consensus sequencing (FIG. 2).【啥是duplex consensus sequencing?】

    Duplex Sequencing基于二代测序技术原理,通过独立的添加标签到reads两端,使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族,再利用单链矫正和双链互相矫正的方法排除错误,减小错误率。

    众所周知,如果两条互补链是完整的,那么真的突变应该在两条链上都有发生,相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变,很可能是DNA双链完整性遭到破坏导致的,后续可用来分析DNA损伤发生的位点情况。

    image.png

    给individual的DNA分子打上条形码Barcode

    第2题,测序技术初探

    现在我们实验室或者公司常用第1代测序与第2代测序,那么:

    1. 第1代测序 sanger 测序法的原理是什么?通量比较低的核心原因是什么?

    sanger法测序及双脱氧链终止法,它采取DNA复制原理,通过在DNA复制过程中添加双脱氧三磷酸核苷酸(ddNTP)终止DNA链的延伸,在DNA链不同位置的延伸终止判断该位置的碱基类型。但是凝胶电泳的时间较长,导致sanger法测序通量低。

    2. 作为2006年正式发布的illumina测序技术,或者称为第2代测序技术的代表性技术,其最大的特点是什么?

    高通量,成本低,但测序长度较短。

    3. Illumina测序技术的核心是什么?

    核心内容有两个,一个是桥式PCR,主要用于扩大信号;另一个是4色荧光可逆终止反应,使illumina测序可以实现边合成边测序的技术。

    4. Illumina测序技术为什么不能像第1代测序技术一样测500bp以上?

    主要的原因有两个,一方面测序时,经过长时间的PCR,会有不同步的情况。比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现50个红,50个绿色,这时信号不足以判断碱基类型;第二就是测序过程中合成酶的活性越来越不稳定,后面碱基添加出现问题。

    相关文章

      网友评论

        本文标题:bioinfo100-第2题-(2)barcode&illumi

        本文链接:https://www.haomeiwen.com/subject/dxazihtx.html