生信分析学习笔记 - RNAseq （二）双端测序与单端测序

作者: 班朱朱UP | 来源:发表于2020-11-12 00:19 被阅读0次

声明：本文部分内容和部分图片来源于网络。本文为生信小白学习笔记，不能保证专业名词和内容全部正确或权威。

下图为某一条RNAseq从数据预处理，序列回帖到数据可视化的工作流程，包含了较多的软件（Linux环境运行）和若干个包（R语言环境运行），本系列将按下图，对每一个步骤进行学习和理解。

某RNAseq分析流程

问题：

1. 单端测序和双端测序是什么意思？

2. 双端测序的read1和read2有什么关系？在后续的拼接和比对时是如何参与的？

3. 对比单端测序，双端测序的优势是什么？

Illumina测序工作原理

Illumina测序流程（宣传动画）包括四个主要的步骤：样品制备，cluster生成，测序和数据分析。

样品制备的方法有很多，所有的制备方法都是在DNA片段的末端加上接头（adaptor），通过简单的循环扩增，引入其他的序列模块。如，测序引物结合位点序列，标签序列（index），以及于流动槽上的oligo（寡核苷酸）结合的互补区域。

Clustering（簇生成）是指每个片段分子被等温扩增的过程。Flowcell（流动槽）是一块带有通道的玻片。每条通道的内表面都包被着两种不同类型的oligo（寡核苷酸序列）。杂交是由这两种oligo（寡核苷酸序列）的其中一种开始的。这种oligo与片段的一条链上的接头区域互补，聚合酶产生已杂交片段的互补序列，接下来双链分子被变性，原始DNA链模板被洗掉，通过桥式扩增，可以将这些链进行克隆扩增。在这个过程中，目标片段DNA链弯曲后，接头区域与flowcell上第二种类型的oligo杂交。聚合酶产生互补链，形成双链桥结构。这个桥经过变性，产生该分子的两条单链拷贝，均固定在Flowcell上。该过程重复无数遍，且数百万个Cluster同时发生，以使所有片段被扩增。在桥式扩增后，反向链被切割并洗掉，只留下正向链。3‘末端被封闭以避免不必要的引物结合和扩增。

测序是从第一条测序引物延伸并产生第一条read（正向序列）开始的。在每个循环中，带有荧光标记的碱基竞争性地结合在不断延长的链中，每次只能结合上一个与模板序列互补的碱基。在每次碱基集合时，用光源激发Clusters发出特异的荧光信号，通过检测不同信号，可知正在合成的序列碱基排序。这个过程被称为边合成边测序技术。循环数决定了序列碱基读取的长度（是指每次读取的长度可能少于原链长度？）。每次读取的荧光波长以及信号强度共同决定了碱基识别。对于一个特定的簇，所有相同的链被同时读取。在大规模并行检测的过程中，数亿个簇被测序。在正向序列测序完成后，测序产物被洗掉。在这个步骤中，引入index1测序引物，其与模板杂交，与正向测序过程相似，生成index1序列。在index序列完成后，测序产物被洗掉，且模板的3’末端的保护被去除。模板现在又发生弯曲，并与flowcell上的另一个oligo结合。index2的读取方式和index1相同。聚合酶使DNA链沿着第二条oligo链延伸形成双链桥。这个双链DNA随后被单链化3‘末端被封闭。原始的正向链被切割并洗掉，只留下反向链。

第二条read（反向序列）的测序是从引入它的测序引物开始的。反向测序步骤与先前的正向步骤相同，反应反复进行。知道达到所需的测序长度。反向测序产物被洗掉。整个过程产生了数百万条序列，包含了所有片段。独特的index可帮助区分文库制备过程中混合的多个测序样本，可分离混合样品文库的序列。对每一个样品，每个碱基序列相似的片段会被聚类分在一起。正向和反向序列配对并连接起来，形成连续的序列。将这些连续的序列再与参考基因序列组比对，已检测鉴定变异。

双端测序可以用来解决那些比对结果不唯一的测序片段。

单端测序与双端测序

两者的区别存在于测序文库的构建方法上。

（作者：wangchuang2017 链接：https://www.jianshu.com/p/5c238ea7c52f）

单端测序：Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flowcell上生成DNA簇，上机测序单端读取序列。该方式建库简单，操作步骤少，常用于小基因组、转录组、宏基因组测序。

双端测序：双端测序在DNA片段两端都加上接头，进行第一次测序，洗去模板链，将模块再原位置进行扩增，进行第二轮测序。

双端测序对比单端测序的优势：

该优势聚焦于测序中对测序长度的影响。Illumina测序的长度较短，单端测序对于不同位置重复出现的序列片段识别出相同的信息，这导致将该序列回帖至参考序列中时，导致一定的误差。而双端测序中，不同读段间的距离已知，即使对于重复出现的序列，双端测序也可推断出不同序列出现的位置，大大减少了序列回帖的误差。双端测序的序列信息往往可以得到较好的组装结果。

另一个原因，所有的reads只能按照一个方向进行读取，这会导致测序的质量会随着读取长度的增加而下降。对于单端测序，其下游测序质量就会较低，而双端测序会从两个方向读取超过待测序列的一半。再根据两个序列重合部分进行拼接，读取序列的质量会由于单端测序的结果。

在双端测序得到的fastQ文件read1和read2中，均具有相同的ID，并在ID后加/1 或/2 进行区分。

网友评论

转录组

本文标题：生信分析学习笔记 - RNAseq （二）双端测序与单端测序

本文链接：https://www.haomeiwen.com/subject/jtumektx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信分析学习笔记 - RNAseq （二）双端测序与单端测序

问题：

Illumina测序工作原理

单端测序与双端测序

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

转录组

生信分析学习笔记 - RNAseq （二） 双端测序与单端测序

问题：

Illumina测序工作原理

单端测序与双端测序

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

转录组

生信分析学习笔记 - RNAseq （二）双端测序与单端测序