Duplicated Reads

作者: 村长吃火锅 | 来源:发表于2020-04-05 11:47 被阅读0次

Duplicated Reads
chapter24:seqkit使用
2.18 去重及替换
Pandas重复记录处理
Chapter 3、代码的坏味道
R语言duplicated函数用法，删除重复行/挑选同组中第一行
22 种代码坏味道（code smell）
Duplicated Code
R_删除重复值
python之重复值(duplicated)

原文出处：陈云地，http://www.biotrainee.com/thread-1382-1-1.html
一、什么是Duplicated Reads
1
谈到NGS数据的duplicated reads（暂且翻译为“重复数据”），我们通常会直观地认为：duplicated reads是在NGS文库构建过程中，由于PCR过度扩增导致同一个模板DNA片段被反复测序多次，得到一模一样的reads。

2
但是这经不起推敲。仔细一想，就很困惑。
PCR不就是用来产生重复数据的吗？否则不叫PCR了。除了PCR-free的文库构建方法以外，大部分NGS文库构建方法都有PCR步骤，难道说这些NGS数据都有问题？

这是不可能的。或许：
PCR可以产生重复序列，但是不能额外多产生一条或多条。设一个基因组有A、B两个片段，PCR后，如果得到1000A+1000B，是正确的；如果得到1000A+1000A+1000B，多出来的1000A就是重复数据？问题是，PCR怎么会凭空多出来1000条片段A的测序reads呢？这要PCR出了什么样的问题，才能产生出这样的结果？

PCR是不会这样的。或许：
A+B经过PCR后得到1500A+1000B，多出来的500条A是重复数据？这不就是大家常说的PCR bias吗？

到底什么是“过度扩增”呢？

3
严格的定义是这样的：
duplicated reads是PCR对同一个分子进行多次镜像复制的后果。
判断是否为镜像分子的标准是：reads的起始和终止位置一样，起点和终点之间的碱基序列一样（不妨简称为“三一样”）。只要起点、终点、或者起点与终点之间的序列三者之中有一个不同，就是不同的分子，称为unique reads。
镜像复制出来的分子个数与总分子数的比例就是duplication rate，duplication rate = 1 - unique reads / total reads。

4
PCR本来就是用来镜像复制DNA片段的。对于最理想的NGS数据分析，难道要尽可能把所有通过PCR获得的子链的测序数据全部去除，要把PCR的效果完全消除，要还原到没有PCR的状态？

是的。
设一个基因组有A、B两个片段，PCR后得到无论多少条reads，比如n・A+m・B条，在数据分析的时候，都只保留1条A和1条B（unique reads）用于组装，而去掉(n-1)条A和(m-1)条B。共有(n-1)条A和(m-1)条B被当成duplicatedreads看待，尽管它们是正常PCR的正常产物。

所以，
目前的算法其实是一个简化的处理方案，把所有重复的reads都去掉了，留下完全不重复的reads。算法没有能力区分“假重复”（人为造成的重复序列方面的bias)和“真重复”（天然存在的重复序列）。

所以，
对于NGS 数据而言，Duplicateddata是一个生物信息学概念，不是分子生物学概念；是人为规定的，不是文库构建、高通量测序等生化反应自然生成的。

二、影响duplicationrate的因素
1
模板分子种类的多样性（复杂度，complexity）。
在循环次数相同和扩增效率相同的条件下，PCR起始时模板分子的多样性越多，PCR结束时镜像复制分子的数量就越少，比例就越低，dup rate就越低。NGS文库构建的PCR循环次数最好不要超过6个，以保证PCR产物具有足够的复杂度。

2
模板分子碱基组成的多样性（复杂度，complexity）。
碱基组成不一样，PCR难易程度不一样。容易PCR扩增的分子在测序数据中占优势。

3
连接效率。
在分子多样性相同和PCR条件相同的情况下，建库过程中模板与接头的连接效率越高，NGS数据的dup rate越低。

4
片段化的长度和随机性。
超声波随机打断和酶切随机打断，就是为了获得分子多样性。这里一定强调随机。用一种或者多种内切酶获得的DNA片段，其分子多样性不如随机打断。
DNA片段的长度要适当。片段长度越小，导致PCR扩增越容易，加剧了PCR bias，最后引起PCR产物复杂度降低，dup rate升高。

5
磁珠洗涤条件的严谨性。
磁珠吸附DNA在本质上是电荷吸附。DNA序列不同，电荷密度不同。如果洗涤条件不严谨，就会造成磁珠吸附有偏好性，也就意味着分子多样性降低，影响dup rate。
膜吸附也是同样的道理。

6
探针杂交封闭的有效性。
如果探针杂交时LINE、Alu等重复序列未能有效封闭，必然造成dup rate升高，有效数据降低。
如果adaptor被未有效封闭，必然造成off target数据的比例升高。单位质量的DNA中，on target部分减少，势必造成on target部分中比例低的分子在测序数据中更容易减少或者缺失，即on target部分的分子多样性降低，影响dup rate。

7
Cluster PCR。
除了建库PCR，cluster在flowcell上的生成也是一个PCR过程。这个PCR容易被忽略。
反方：1条模板经过ClusterPCR只能形成1个cluster，测出1条read。Cluster PCR不增加测序reads的数量，所以不影响dup rate。
回答：cluster PCR如果造成cluster变少，则影响dup rate。原因是比例少的分子有可能不能产生cluster，造成唯一性分子数减少，进而影响dup rate。
适当的cluster生成密度，不仅能够获得最佳的数据产量，也能够获得较低的dup rate。无论ILMN还是PGM平台，我们都希望cluster是单克隆(monoclonal)的，多克隆(Polyclonal)的cluster甚至是相互overlap的cluster都会被测序识别程序过滤掉，造成的直接影响就是cluster密度过高，数据产量降低，整张芯片的cluster多样性降低，造成dup rate升高。Cluster生成的第一步，是模板DNA分子与flowcell上的oligo杂交结合的过程。这个过程是随机事件。模板分子的多样性和复杂度越高，各种分子的比例越均一，dup rate就会越低。极端的情况就是每个cluster只是一种模板分子的单克隆，这个时候dup rate是最理想的。
注：Illumina HiSeq X10之前的平台，flowcell上cluster的生成具有排他性，clusters可以长得挨在一起，但是不会相互重叠。只要其光学检测系统的分辨率足够，就不会有cluster信号的重叠。HiSeq X10之后的平台，flowcell上是打孔的，cluster长在孔里，生成多克隆cluster的可能性希望专家指教。

8
试剂质量不好。
比如SBS测序试剂出了问题，有可能造成WES的dup rate升高到30%。

9
Dup rate跟探针的关系最小。
极端的例子就是扩增子（PCR产物）测序，dup rate可以很高，但完全没有探针存在。探针杂交过程中最影响分子多样性的因素是探针分子与目标分子的比例，其次是杂交的时间。探针与目标分子的比例最低应该在100：1（一定的体积内，有体积的要求），高于这个比例，探针是能够将目标分子捕获的。目前的探针法NGS，这个比例是很高的，探针数量是高度冗余的。杂交法的目标是获得最多的分子包容性，获得最多的与参考序列不一样的序列。只有增加分子包容性，才能最大可能地包含变异的类型，因此探针分子要长，杂交时间要长。NGS杂交不是为了特异性，而是为了更高的产量，获得更多的不准确。因为越准确，就意味着测序数据与参考序列（也就是探针序列）是一样的，这样就没有测序的必要了，也就没有发现新的信息的功能了。因此，杂交时间短，不能容纳最大序列可能性，造成分子多样性降低，进而影响dup rate。

三、模板分子多样性非常重要
总之，dup rate与模板分子的多样性呈反相关，所有影响分子多样性的环节与因素都会影响dup rate。

除了上面讲的那些因素，样本的性质也对模板分子的多样性有影响。如FFPE样本的dup rate高是共识。再如单细胞测序，单细胞DNA的有些区域在测序结果中压根就测不到。单细胞全基因测序的覆盖率是80%~90%，而多细胞全基因测序的覆盖率能达到99%以上，原因就是分子多样性不同。对于多细胞测序，相同区域的分子，这个细胞没有扩增到，另一个细胞可能就扩增出来了；而单细胞只有两次机会，没了就是没了。

其他因素还包括模板DNA的质量、实验室科学家的操作习惯等。比如，同样是取200 ng模板DNA，一个人取0.1 uL获得200 ng，另一个人取5 uL获得200ng，这两种方法的分子多样性不一样。

Duplicated Reads
原文出处：陈云地，http://www.biotrainee.com/thread-1382-1-1.html一、...
chapter24:seqkit使用
查看fastq总体信息 root:~/refs# seqkit stat duplicated-reads.fq....
2.18 去重及替换
.duplicated / .replace 1--# 去重复 X.duplicated（）布尔型索引：X[X....
Pandas重复记录处理
Pandas重复记录处理 1 概述 Pandas提供了duplicated、Index.duplicated、dr...
Chapter 3、代码的坏味道
3.1 Duplicated Code(重复代码) 坏味道行列中首当其冲的就是Duplicated Code。如果...
R语言duplicated函数用法，删除重复行/挑选同组中第一行
#用于删除病人编号重复行 e<-d[!duplicated(d$病人编号)] #duplicated函数是一个可以...
22 种代码坏味道（code smell）
摘自《重构》 1.Duplicated Code(重复的代码) 坏味道的首当其冲是重复的代码Duplicated ...
Duplicated Code
重复代码症状坏味道中首当其冲的就是重复代码,如果看到两段(或更多)代码结构差不多或完全相同，那么这个坏味道就可...
R_删除重复值
duplicated 描述：duplicated()函数用于确定一个向量或数据框的重复元素中下标较小元素，并返回一...
python之重复值(duplicated)
检查重复值duplicated() Duplicated函数功能：查找并显示数据表中的重复值这里需要注意的是：当...