bioinfo100-第2题-（2）barcode&illumi

作者: RachaelRiggs | 来源:发表于2020-04-24 19:19 被阅读0次

什么是barcode？

给sequence打的标签tag = barcode；
在过去的这些年，虽然NGS越来越成熟，通量越来越高，但是其精确度缺没有什么提高，在某些高通量平台甚至测序精确度有所下降。考虑某些生化水平的错误是不可避免的，约2009年，出现了一种创新的方法来识别和过滤错误信息，而不是整体上通过“preventing”的方法，来提高测序的准确度。

这种方法，最后被称为single-molecule consensus sequencing, tag-based error correction or molecular barcoding（单分子共识测序，基于标签的错误校正，或者，分子条形码）。这种方法迅速称为了高精确度NGS测序应用的新标准。

而其中的关键标签Tag，就被成为Barcode。

作用：

对于测得的两个相同的序列，通常不可能确切地确定它们是从同一起始分子来的的PCR拷贝还是从两个独立分子的PCR拷贝中读出了两个相同的序列。
但是，如果在PCR扩增之前，将互相独立的Barcode标签连接到每个DNA片段分子上，这个标签就能够被所有从这条DNA原始序列扩增得到的Copy所携带，从而可以确定相同的reads是否来自共同的一个原始DNA片段

什么是UMI&SMI?

It is worth noting that the concept of a molecular barcode (also known as a unique molecular identifier (UMI), a single-molecule identifier (SMI) or simply a tag) is different from that of an index sequence.
得注意的是，分子条形码（也称为“唯一分子标识符”（UMI），“单分子标识符”（SMI）或简称为标签tag）的概念与测序流程中的index序列是不同的！
Molecular barcodes serve to uniquely label individual molecules within a sample, whereas index sequences are identical DNA labels that are affixed to all molecules in a given sample for the purpose of sample multiplexing.
分子条形码用于唯一标记样品中的单个分子，而索引序列是相同的DNA标记，这些标记被附加到给定样品中的所有分子上，以进行样品多路复用。
More importantly, because all identically tagged reads will have derived from a common founder (provided that barcodes are designed carefully), any variation between their actual sequences must necessarily reflect technical errors
更重要的是，由于所有标记相同的reads都将来自一个共同的DNA片段（假设条形码是经过精心设计的），因此它们实际序列（这些reads）之间的任何差异都一定反映了测序技术的错误
Tag-based error correction relies on this principle:
基于标签的错误纠正依靠以下原理：

-- independent reads sharing a common tag are recognized and grouped as amplicon copies of the same starting molecule;
识别具有共同标签的独立读段，并将其分组为同一起始DNA分子的扩增副本；
-- any sites of sequence differences among the reads are discounted as errors when forming a consensus sequence
当形成共有序列时（含有共同barconde的序列被称为共有序列），reads之间的任何位置的序列差异都被作为错误而去除；

Over the past 5 years, molecular consensus sequencing has proved itself as the most impactful means for reducing NGS errors.
在过去的5年中，分子共有序列测序已证明是减少NGS错误最有效的方法。
The variety of approaches developed to date can be grouped into three basic categories:
迄今为止开发的各种方法可以分为三个基本类别：

-- single-strand consensus sequencing;

单链共有序列

-- two-strand consensus sequencing;
双链共有序列

-- and duplex consensus sequencing (FIG. 2).【啥是duplex consensus sequencing？】

Duplex Sequencing基于二代测序技术原理，通过独立的添加标签到reads两端，使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族，再利用单链矫正和双链互相矫正的方法排除错误，减小错误率。

众所周知，如果两条互补链是完整的，那么真的突变应该在两条链上都有发生，相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变，很可能是DNA双链完整性遭到破坏导致的，后续可用来分析DNA损伤发生的位点情况。

image.png

给individual的DNA分子打上条形码Barcode

第2题，测序技术初探

现在我们实验室或者公司常用第1代测序与第2代测序，那么：

1. 第1代测序 sanger 测序法的原理是什么？通量比较低的核心原因是什么？

sanger法测序及双脱氧链终止法，它采取DNA复制原理，通过在DNA复制过程中添加双脱氧三磷酸核苷酸（ddNTP）终止DNA链的延伸，在DNA链不同位置的延伸终止判断该位置的碱基类型。但是凝胶电泳的时间较长，导致sanger法测序通量低。

2. 作为2006年正式发布的illumina测序技术，或者称为第2代测序技术的代表性技术，其最大的特点是什么？

高通量，成本低，但测序长度较短。

3. Illumina测序技术的核心是什么？

核心内容有两个，一个是桥式PCR，主要用于扩大信号；另一个是4色荧光可逆终止反应，使illumina测序可以实现边合成边测序的技术。

4. Illumina测序技术为什么不能像第1代测序技术一样测500bp以上？

主要的原因有两个，一方面测序时，经过长时间的PCR，会有不同步的情况。比如一开始1个cluster中是100个完全一样的DNA链，但是经过1轮增加碱基，其中99个都加入了1个碱基，显示了红色，另外1个没有加入碱基，不显示颜色。这时候整体为红色，我们可以顺利得到结果。随后，在第2轮再加入碱基进行合成的时候，之前没有加入的加入了1个碱基显示红色，剩下的99个显示绿色，这个时候就会出现杂信号。当测序长度不断延长，这个杂信号会越来越多，最后很有可能出现50个红，50个绿色，这时信号不足以判断碱基类型；第二就是测序过程中合成酶的活性越来越不稳定，后面碱基添加出现问题。

网友评论

NGS那些大佬说的

本文标题：bioinfo100-第2题-（2）barcode&illumi

本文链接：https://www.haomeiwen.com/subject/dxazihtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！