建库测序若干问题（2）测序错误率

作者: DC小白 | 来源:发表于2019-02-19 14:49 被阅读0次

建库测序若干问题（2）测序错误率
8种特殊建库测序
RNA-seq名词解释（2）
测序中加入Phix的作用
三代变异检测操作说明-DeepVariant
癌症基因组重测序分析三/四
生信--RNA-Seq数据分析
建库测序中的若干问题（1）
转录组分析(5) - 无参转录组拼接(illumina)
数据分析：RNA-seq数据的批次校正方法

转自 https://yangguang8112.github.io/2017/03/09/%E6%B5%8B%E5%BA%8F%E9%94%99%E8%AF%AF%E7%8E%87/

为什么read1和read2前几个碱基的错误率较高？

测序仪先测完read1全长，才跳转测read2，测序仪自身在刚启动或关闭时不太稳定，图像识别质量比较差，尤其是第一个碱基与最后一个碱基，测序质量最差，紧挨着的几个碱基测序质量也偏高，一是测序仪从刚开始的不稳定到稳定，有一个过渡的过程。另外接头空载，也会导致错误率上升。(ILLUMILA工程师的说法)

这是因为随机引物扩增的偏好性导致的。随机引物扩增偏好使得前边一些碱基的碱基含量不平衡，因而在base-calling的时候算法不准确，导致了错误率高。所谓的开机仪器不稳定其实解释不了read2开始碱基错误率也高的问题。 DNA文库没有这种随机引物反转的过程，因而起始的几个碱基的错误率就没有明显高。也是同样的道理，WGBS文库因为碱基含量的不平衡，而导致错误率更高，在测序的时候就需要加入平衡文库。

随着测序的进行，flowcell可能会受到荧光的损害之类的，因而测read2的时候flowcell已经和read1的时候不同了，因此read2的错误率会更高一些。当然荧光损害的说法也不太能找到根据，而测过read1之后，可能flowcell变得更脏了却是很好理解的。

为什么随着read延长，测序错误率呈现升高趋势？read2错误率要普遍高于read1错误率？

测序过程中，每个cycle在荧光基团淬灭，去3’端保护基团时，没有完全去除，导致在延伸过程滞留，或者是加入了无3’端保护的碱基，导致延伸超前，滞留和超前引起延伸步调不一致，这是一个累积的过程，越是往后，超前或滞后的累积越多，测序错误率也就越高。另外，整个测序过程耗时较长，酶活性及试剂的有效性会随着时间的延长而降低，测序过程先测read1，后测read2，所以read2的错误率要稍高于read1。另外，若待测片段中存在反向互补序列，容易发生折叠，导致碱基在合成时错配（测序原理为边合成边测序）。对于特异性序列GGC，若后面的碱基是G，GGC这种结构引起聚合酶偏好性的改变，会使错误率增高。

参考文献

Metzker M L. Sequencing technologies—the next generation[J]. Nature reviews genetics, 2010, 11(1): 31-46.

Nakamura K, Oshima T, Morimoto T, et al. Sequence-specific error profile of Illumina sequencers[J]. Nucleic acids research, 2011: gkr344.

Dohm J C, Lottaz C, Borodina T, et al. Substantial biases in ultra-short read data sets from high-throughput DNA sequencing[J]. Nucleic acids research, 2008, 36(16): e105-e105.