简介
这是一篇发表于《Nature Reviews Gentics》上的一篇综述,名称为《实验重复在减少NGS测序错误中的作用》。虽然NGS测序技术的进步使得测序的保真性提高,测序错误率下降。但是考虑到人基因组数以十亿的碱基,极低的错误率仍然会在变异检测过程中产生许多的错误。一些错误变异和真实的somatic突变、稀有突变十分类似,下游实验验证这些假阳性变异会花费巨大。这篇文章主要描述了高通量实验中的错误来源,以及怎么利用重复来减少这些错误。
1 NGS中的错误来源
NGS错误可以来源于实验流程的各个步骤:样本处理、文库制备、测序及成像或拍照步骤。
image.png
1.1 样品制备
- 实验人员失误;例如,贴错标签。
- DNA或RNA的降解;例如,组织自溶,福尔马林固定石蜡包埋(FFPE)组织制备过程中的核酸降解和交联。
- 异源序列的污染;例如,支原体和异种移植的宿主污染。
- DNA起始量低。初始基因组产物数量不足、质量较低会导致扩增错误增多、并降低测序深度
1.2 文库制备
- 实验人员失误;例如,一个样品的DNA残留到下一个,之前反应的污染。
- PCR扩增错误。
- 引物偏倚;例如,结合偏倚,甲基化偏倚,错配偏倚,非特异性结合、引物二聚体、发夹结构的形成,熔解温度太高或太低引入的偏倚。
- 3’端捕获偏倚,在RNA测序的poly(A)富集过程中引入。
- 独有突变;例如,由重复区域或独有变异的错配而引入的突变。
- 机器故障;例如,PCR循环温度不正确。
- 嵌合体reads的形成。会引起双端reads文库较长的插入、错误突变、组装错误。
- barcode和/或接头错误;例如,接头污染,barcode多样性不足和barcode不兼容。会造成序列的污染、序列数量的损失、质量的下降。
1.3 测序和成像
- 实验人员失误;例如,流动槽过载引起的各簇之间的交叉污染。
- 移相;例如,延伸不完整以及多个核苷酸而不是单个核苷酸的加入。
- “Dead”荧光基团;例如,核苷酸损坏以及信号重叠。
- 序列区域;例如,富含GC,同源和低复杂度的区域,及均聚物。
- 机器故障;例如,激光、硬盘、软件和流体系统出故障。
- 链的偏倚。
2 利用实验重复减少NGS错误
2.1重复类型
重复类型包括,测序reads覆盖深度、技术重复(分析相同的样本,经历相同的处理步骤)、生物学重复(分析来自同一宿主的不同生物样本,经历相同的处理步骤)和跨平台重复。
目前减少测序错误的方法主要集中在后处理过滤策略上,包括过滤测序reads深度、碱基质量值、比对质量值、变异质量值、已知变异位点、链偏好性、等位基因不平衡性、序列上下文。这些后处理步骤综合考虑,可以提高最终变异检测的精度(FIG 1.b)
image.png
2.2利用重复优化过滤阈值
生信过滤参数可以通过技术重复、生物学重复和跨平台重复优化,提高流程的灵敏度和特异性。例如,每个人约有300万个变异位点,但是由于短序列的比对错误、嵌合体影响以及测序错误,变异软件可以检测出多达2000万个不同变异质量的变异。我们就可以利用重复的基因组序列进行测序,对变异阈值或者其他参数进行筛选,过滤假阳性变异。
如图2所示,类似于ROC曲线,可以根据重复实验选择出一致检出的突变位点(备选的真阳位点)和不一致检出的位点(备选的假阳位点),并按照优化参数(变异质量值,比对质量值)值进行排序,随着优化参数值的降低(降低筛选的严格程度),如果真阳变异和假阳变异在某一参数数值达到比较好的分离,就可以确定阈值。
图2中,X轴 "Fraction of discordant SNVs" 表示在特定阈值或以下的假阳性(不一致)变异数量占所有质量分数检测的假阳性(不一致)变异数量的比例。Y轴 "Fraction of concordant SNVs" 表示在特定阈值或以上的真阳性(一致)变异数量占所有质量分数检测的真阳性(一致)变异数量的比例。
image.png
参考文献:
[1] Robasky K , Lewis N E , Church G M . The role of replicates for error mitigation in next-generation sequencing[J]. Nature Reviews Genetics, 2014, 15(1):56-62.
网友评论