二代测序中,重复序列有两种来源:
1.样本自身的重复序列。由于样本序列自身存在多个重复引起,比如RNA-seq由于逆转录而得到的重复序列。
2.复制的拷贝。在建库过程中由于PCR产生的拷贝数变化,应该被移除。
检测方法
1.序列一致性。发现相同的序列并移除。
2.比对一致性。需要知道参考基因组,当两条序列必对完全相同时,加以移除。
应该移除重复吗?
对于SNP检测和基因组变异分析,应该移除,其他实验大都不需要。
若需移除,则应说明其中不含有样本自身的重复序列。
FastQC duplicate解读
其中,蓝线表示该位置重复序列的总数,红线表示该位置非重复序列的综述。
两者高度差表示该位置,重复的多少。
网友评论