建库中有一步是:
PCR扩增加了接头的DNA片段。
理想情况下,对打碎的基因组DNA,每个DNA片段测且仅测到一次。
但这一步扩增了6个cycle,那么每个DNA片段有了64份拷贝。将扩增后所有产物“洒”到flowcell,来自一个DNA片段的两个拷贝,可能会锚定在两个bead上,经过测序得到的这两条read,就是PCR duplication。
一般来说,如果PCR duplication rate过高,那么同样总数目的reads,所提供的关于基因组的信息就大大减少了。
RNA-seq一般不去重复
ChIP-seq一般去重复
call SNP一般去重复
运行代码:
cat id|while read id
do
##先要sort,并且要以queryname进行sort
samtools sort -@ 50 -n -o so2/${id}.sort so1/${id}.sort
##建立fixmate 需要加-m参数
samtools fixmate -m so1/${id}.sort fix/${id}.fixmate.bam
##重新排序
samtools sort -o ${id}.bam ${id}.fixmate.bam
##标记重复
samtools markdup so1/${id}.sort rmdup/${id}.mk.bam
参考链接:
测序的PCR duplicates及用samtools的rmdup去除PCR重复reads - BPSO_mynotes - 博客园 (cnblogs.com)
网友评论