基础——illumina测序原理与细节（以RNA-seq为例）

作者: Bio_Infor | 来源:发表于2022-06-22 01:43 被阅读0次

基础——illumina测序原理与细节（以RNA-seq为例）
bioinfo100-第3题-(3)illumina
第二代测序—illumina测序原理
陈巍学基因视频学习笔记--视频7：RNA-seq方法和应用
illumina测序原理
NGS019 二代测序的图象处理和碱基识别
基础知识——illumina测序原理
测序原理免费资源收集
学习小组Day7笔记--如晤
二代测序数据质控 QC

目前我们主要分析的数据还是二代测序的数据，也就是大家经常挂在嘴边的 NGS，而这其中最大的赢家应该算是 illumina 测序公司了，其经典的边合成边测序（sequencing by synthesis，SBS）巧妙地利用带不同荧光的dNTP来让碱基组成可视化，本身还是很有意思的。但随之而来的就有一些问题，比如以RNA-seq为例，如果你是一个经典的从表达矩阵开始的数据分析选手，那其实建库细节对你来说好像也没那么重要；而如果你是一个从原始fastq下机数据（甚至建库实验）开始的数据分析选手，此时建库的细节就可能显得尤为重要，需要你做到知根知底。或许你经常遇到一些名词，其中有一些可能让你感到迷惑：

桥式PCR
链特异性RNA测序
sample index
adapter
簇生成
……

现在我们就以illumina经典的 TruSeq Stranded mRNA 建库测序为例来走一遍整个illumina测序的流程，为什么会选择这个建库策略呢？首先，RNA-seq是目前我们触手可及、应用最广的基因表达量检测技术；其次，相较之于链非特异性测序，链特异性测序对大多数人来说更复杂，更难以理解。关于链特异性测序我之前已经有一个长篇大论谈到了这个问题：一文阐述链特异性测序——stranded? reverse-stranded? un-stranded?，阅读量还不错，反馈也还可以，有兴趣的可以去看看，在这里就只以 TruSeq Stranded mRNA 为例了。

An overview of TruSeq Stranded mRNA sequencing

老规矩，我还是以图辅以文字的方式来先整体介绍一下 TruSeq Stranded mRNA ：

对着流程看，提前说一下，红色始终代表sense strand的信息，天蓝色代表antisense strand的信息：

首先，我们需要利用成熟mRNA带polyA尾的特点，通过oligo dT来富集出mRNA；
接下来我们使用超声来对mRNA进行片段化，然后再使用随机引物进行反转录，这个过程就是第一条链的合成；
接下来我们使用诸如RNaseH的酶来消化降解掉杂合链中的RNA，然后再进行第二链的合成，不过这里我们不使用dTTP，而是使用dUTP。
使用Klenow酶来给3'末端添加一个突出的A；
连接adapter，注意这里的adapter结构哦；
然后再进行PCR，由于DNA聚合酶不能以dUTP为模板，所以以sense strand为模板的链没有办法参与到PCR中，因此最终的双链DNA都是右下角那样的。
我们最终可以看到，Read1测到的是antisense strand的信息，Read2测到的是sense strand的信息，这和我们之前的理解是一样的哈。

illumina测序细节

注意了，我们现在回到这个结构，开始走上机测序的流程：

首先illumina测序用的东西叫：flowcell，这个结构的底部有很多的多核苷酸链，这些多核苷酸链是与我们的p5和p7接头互补的。

我们以一条DNA单链为例，首先它的P5接头序列会和flowcell上面的P5接头互补序列结合，然后会发生DNA的合成，注意合成完了之后，由于flowcell上面的接头互补序列是和flowcell共价连接的（已经用黄色圆圈标识出），所以很稳定，我们使用碱性溶液冲洗flowcell时，靠共价键连接在flowcell上的链并不会被冲洗掉，反之另一条链就被洗掉了，最后就成了最右边的那种情况。
接下来，发生了第一个名词的过程：桥式PCR：

它为什么叫桥式PCR，其实很简单，就是因为中间进行PCR的时候像一个拱桥一样。同样的DNA合成后用碱性溶液就能使DNA双链解链，但是由于P7是共价连接在flowcell上的，所以不会被洗掉哦，如此重复进行桥式PCR，最终就会形成一个簇，第二个名词出来了，那就是簇生成。你会发现这一簇单链DNA其实都是来自于一条起始DNA单链，也就是说，这一簇DNA实际上表征的生物学信息是一样的。有人会问，为什么要这么麻烦桥式PCR呢？回答这个问题就会提到边合成边测序了，单个碱基的荧光终究是比较弱的，但是很多个碱基的荧光聚在一起就会很明显了，就足够我们去准确判断碱基类型了。这就是为什么我们要进行桥式PCR的原因。下面开始测序，你就知道桥式PCR妙在哪里了：

我们先把连接在P5上面的链洗掉，就成了上图左边的情况，然后我们让read1的primer结合上去，边合成边测序，记住，这里一簇DNA有很多这样的链，所以你看到的荧光信号会很强，如果没有桥式PCR，你就不可能实现这样的效果。需要注意的是，我在这里把sample index也标出来了，为什么会有这个东西，因为实际上有时候一个flowcell的测序容量还是很大的，为了不造成浪费，很多时候我们会把来自不同样品的文库混在一起测，那我们在建库时就加上不同的sample index，但时候我们就能够根据这个sample index序列区分reads不同的样品来源了，一般如果有这个序列会以类似于I1.fq.gz的形式返给你，但实际上我们很少收到这个结果，就是因为测序公司下机后就会根据这个sample index把reads分好，所以你就只会拿到你的序列。
下一个名词：双端测序，为什么会有这个双端测序，实际上很简单，如果一条DNA序列很长，我们可能没办法通过一条reads把它全部测完，但同时我们又要精确定位其在基因组上的位置，这时双端测序就派上用场了，当我们把这个DNA的两端都测了之后，就知道这个DNA的两端分别在基因组的什么位置上了，这样即使中间还有一段我没测到也没关系，两端的位置已经决定了这个DNA片段在基因组上的位置了。这就是我们常说的Read1和Read2了，这里就简单说一下Read2是怎样产生的了：接着上面的图，同样的我们再进行一次桥式PCR，这时候flowcell上的P5接头也会“长出”一些序列，然后我们这次洗掉连接在P7上的序列，上下的就只有P5连接的序列了，再把Read2的测序引物加进去就能测得Read2了。

文库结构——到底什么是adapter？测序引物结构又是怎样的？

做过fastq文件比对的人都知道，这个过程中非常重要的，大家挂在嘴边的就是去接头，第三个名词出来了：adapter。那么到底什么是接头？fastqc这样的软件又是怎样检测到的？cutadapt、fastp、trimmomatic、trim_galore这些软件又是怎么去接头的？似乎这些都是灰色地带，下面是我的理解：
首先还是看文库结构：

首先声明一个事实：

一般来说，我们不管是read1还是read2从哪里开始测，哪里就是我们想要的真实生物学序列了；

这实际上很好理解，我们没有人去adapter是从fastq文件中每条read的开头去的。那么什么是adapter呢？你可以简单理解为，在一个文库中，非生物学序列的其余序列都属于adapter，包括P5、P7、测序引物结合位点。那么fastqc是怎么检测adapter的呢？你去看看fastqc的GitHub，会发现它有这样的几个序列：

Illumina Universal Adapter                  AGATCGGAAGAG
Illumina Small RNA Adapter                  ATGGAATTCTCG
Nextera Transposase Sequence                CTGTCTCTTATA
SOLID Small RNA Adapter                     CGCCTTGGCCGT

你可能会觉得很神奇，其实fastqc判断你的序列有没有adapter就是在和这几个序列做简单的匹配罢了。接踵而来的问题就是：

为什么这几个序列就能帮我们判断adapter的有无，按照我们的理解来说不应该adapter序列会很多样吗？
这几个序列到底在文库的哪里？

首先给答案：

这几个序列在测序引物的3’端；
由于基本上所有的引物3'端都是这些序列，所以我们可以通过这几个序列判断adapter。

听起来很离谱，画个图就清楚了：

上面这个图展示了read1产生的全过程，显然红色部分都是我们想要的生物学序列信息，直到绿色部分就不是了，因为绿色部分实际上测的是read2的测序引物结合位点序列了。收到这样的启发，灵感来了：那我们判断一下一个read里面有没有测序引物结合位点就知道这个序列是不是有adapter了。实际上就是这样的。不信我们就来验证一下：
这份文库结构的注释来自于近岸蛋白的CUT&Tag试剂盒：

按理来说我们的测序引物结合位点应该在图中的黄色位置，按照我上面的理论，我们可以通过CTGTCTCTTATA来判断我们读到adapter了，实际上呢？回顾一下fastqc的那几个adapter的序列：

Nextera Transposase Sequence                CTGTCTCTTATA

果然，不能说完全相同，只能说一模一样，也就是说，现在市场上所有的Tn5转座酶都必须将这段序列连接到DNA的两端，这样才能让我们检测到adapter。
你可能还是不信，好吧，那再来一个其它的例子吧：

这份文档来自于illumina官方，我们看看这两个测序引物的3'端是不是可以作为我们检测adapter的标准哈，把read1的测序引物碱基互补配对一下（为什么就不赘述了……）：5'-AGATCGGAAGAG-3'，然后看一下我们的fastqc中的这个adapter：

Illumina Universal Adapter                  AGATCGGAAGAG

这不能说完全相同，只能说一模一样吧……总该信了？

结束了上面的测试，你或许会发现一个问题：那按这么说，是不是read1和read2的测序引物的3'端总是会有部分是一样的啊？一样的部分就是作为判断adapter是否存在的那条序列？你自己看看上面的那个图，不就知道了，事实上就是这样。

最后，为了让你更信，我还把trim_galore的adapter序列也粘贴在这里，这不和fastqc的一模一样？原来纷繁复杂的illumina测序竟然这么统一！

今天又是摸鱼🐟的一天！

基础——illumina测序原理与细节（以RNA-seq为例）
目前我们主要分析的数据还是二代测序的数据，也就是大家经常挂在嘴边的 NGS，而这其中最大的赢家应该算是 illum...
bioinfo100-第3题-(3)illumina
参考illumina测序-过程illumina原理-陈巍第3题，illumina测序技术细节探究I 目前我们最常...
第二代测序—illumina测序原理
陈巍学基因-illumina测序原理官方-illumina测序原理步骤：一、sample prep（样本准备）：基...
陈巍学基因视频学习笔记--视频7：RNA-seq方法和应用
前期笔记陈巍学基因视频学习笔记--视频1：Illumina测序化学原理 RNA-seq的应用检测所有mRNA的...
illumina测序原理
illumina测序原理一些常用基本概念的介绍： flowcell流动池是指Illumina测序时，测序反应发...
NGS019 二代测序的图象处理和碱基识别
二代测序的数据分析通常分为初级分析、次级分析和高级分析三个层次。以Illumina测序平台为例，讨论二代测序的图象...
基础知识——illumina测序原理
二、高通量测序---illumina测序原理高通量测序技术（High-throughput sequencing...
测序原理免费资源收集
一代测序 Sanger 测序二代测序 Illumina测序HiSeq工作原理二代测序原理及fastq数据三代测...
学习小组Day7笔记--如晤
参考资料：1）测序的世界：测序原理、数据初步分析2）illumina测序公司的原理介绍视频：https://sha...
二代测序数据质控 QC
NGS-QC illumina测序原理高通量测序（High-Throughput Sequencing）又名二代...