写在前面:最近很纠结于测序数据的重复率,虽然是单细胞会难免有bias,但是fastqc和fastp两款软件计算出来的dup%简直差太大了,琢磨了好久,看了fastp的文章才搞明白。
先说一下问题,我的这组数据fastqc报告的重复率特别高,但是fastp结果还好,如图:
multiqc-fastqc
fastp report(one sample)
为什么出现这个问题,到底哪个可信?
fastqc计算时,把read1和read2分开计算,各算各的;反应的只是一端,并不能代表整个insert 片段;
fastp计算时,把r1 r2都重复(也就是start,end,lengh)都相同才叫做dup,而如果两组paired reads,r1重复,而r2不一样,则不算dup!这也是为什么只有一个dup%!
在NGS中,paired reads中有一端与其他一样,另一端不同,是非常常见的,尤其是high depth sequencing.
所以,fastp计算比较合理,fastqc结果的重复率偏高。
附上fastp文章的解释:
Chen SF et al., Bioinformatics, 34, 2018, i884–i890
网友评论