背景
二代测序建库时,当连接好接头之后,需要进行PCR,而目的是什么?对后续生信分析有何影响?
为什么需要PCR?
一般是因为DNA浓度过低,取样上机时只有很少一部分DNA被捕获到,导致基因组很多区域没有测到。这也是DNA输入量影响覆盖度的重要原因之一。
而不足的原因就有很多了,比如本身input量就很低(cfDNA、FFPE及其他低DNA含量组织),或者是本来DNA量是够的,但是在处理过程中(比如超声波打断、酶切、重亚硫酸氢盐转换等)DNA发生了部分降解,导致一些片段丰度降低。同样不能被 flowcell 上的接头捕获。
所以,那些低丰度的DNA分子在扩增之后多少就能够被捕获到了,以提高覆盖度。
但是PCR步骤也会带来一些问题。
为什么需要去重?
理想情况下,不管P不PCR,这些片段被捕获的概率相同,但是PCR存在着偏好性,即不同的DNA分子被扩增的次数不尽相同,片段长度、GC含量都会有影响。
因此,对于随机打断的建库方式来说(比如WGBS、ATAC-seq、ChIP-seq),如果后续比对后发现reads的起始、终止及之间的序列完全相同,则为PCR产生的duplicate,如果不去重的话,则直接影响到丰度和最终的读值。
而对于本身或建库过程中就会产生大量重复序列的建库方式来说(比如RNA-seq、RRBS、TBS),这些duplicate本身就是存在的有意义的,而不是无效拷贝,因此必须保留。
去重的工具
直接去除
- samtools rmdup
- sambamba markdup -r
只标记不去除
- sambamba markdup
- picard MarkDuplicates
在需要时再去除,比如WGBS数据的分析,在提取甲基化读值的步骤MethylDackel extract时,则自动不提取标记为重复的reads
网友评论