基于short reads的结构变异鉴定工具的综合评价

作者: Boer223 | 来源:发表于2020-03-15 16:39 被阅读0次

基于short reads的结构变异鉴定工具的综合评价
SV VCF格式的说明及转换
WGS分析用breakdancer找染色体结构变异
癌症基因组重测序分析五
Svim 基于long reads鉴定SV
HyPo: Super Fast & Accurate Poli
bayestyper群体结构变异SV的鉴定
基因组结构变异检测工具的整合
CNV calling | DELLY
FLASH 合并双端测序reads

本文的部分内容来源于“Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software”这篇文章，如有兴趣，可阅读文章原文。

摘要

近年来，已经发布了许多使用全基因组测序数据来鉴定SV的软件包。在发布时，通常将一种新工具与已有的工具进行比较，但这种比较往往是选择性的. 由于没有全面的对这些工具进行比较分析, 这也给用户带来了一些选择困难. 因此, 文章对10个SV鉴定工具进行了综合评估，这些评估的工具都是经过了严格的选择的，并且使用高质量的测序数据以及模拟方法。由于可用数据集的性质，文章主要重点是通用的SV鉴定工具而非体细胞SV鉴定工具。文章分析了SV事件大小和类型，测序数据特点和基因组特征对SV工具性能的影响，并分析鉴定结果和SV鉴定质量。最后，文章还为用户和相关开发人员提供了一些建议。

主要结果

工具的选择

文章中选择了自2010年以来发表的高引用率的SV鉴定工具且适用于一般的SV鉴定, 排除了那些仅适用于正常组织和肿瘤组织配对数据的工具, 最后仅筛选出10个工具用于进一步的比较评价分析.

对一些明确特征的细胞系数据的总体性能

该部分分析的主要结论是, 与单核苷酸变异（SNV）的鉴定不同，SV鉴定工具鉴定变异的合子的鲁棒性很好，并且变异单倍型的覆盖率是SV鉴定的决定因素。数据集之间鉴定率的巨大差异可以归因于所使用的数据集的全面性。

image

对理想数据集的性能评价

在对每个工具在不同的SV事件大小, 不同SV类型和测序参数进行全面的多维模拟后, 如果检测大的插入, 需要从头进行组装才能检测出，而检测小的SV事件则需要进行SR分析或组装。对于基于PE的工具，reads长度和片段大小之间的相互作用非常复杂：增加reads长度，减小片段中值长度和缩小片段大小分布都可以检测到较小的SV事件.

一些工具并不能鉴定出所有的SV类型, 比如CREST, DELLY, HYDRA 和 LUMPY就不能鉴定出倒位和串联重复. 对于任何SV类型和片段大小, cortex和CREST都没有较好的检测灵敏度, 而Pindel无法检测到1kb的缺失和2kb的重复.

序列前后和事件大小对检测准确性的影响

在所有的工具中，靠近断点的SNV或插入/缺失的存在与检测精度相关：与两个或多个较小的变异相比，具有两个或多个较小变异的工具具有更高的FDR。同样，在低复杂度，简单或短串联重复（STR）区域中发生的SV对所有工具的准确性都较低。总体来说, 工具通常不受DNA，LINE和SINE等重复序列的影响，在LTR重复序列区域中FDR升高.

image

运行时间评估

如果工具是基于组装的策略进行鉴定SV, 那么速度一般是较慢的, 如果是其他的鉴定策略, 那么速度则会较快.

讨论

作者对于用户和开发人员给出了一些选择, 使用SV工具和开发SV工具的一些意见和建议, 这里仅列举下对于用户的建议:

选择使用那些采取多个策略进行SV检测的工具
使用最新的方法并且结合了多个SV检测策略的工具, 最好还能支持单碱基分辨率水平的SV的检测(比如SR策略). 在断点处包含基于组装的鉴定方法的准确性要优于其他方法. 在理想情况下, 要使用可以检测微同源性和非模板序列插入的方法. 因此, 可以选择Manta和GRIDSS工具.
选择能够检测所有SV类型的工具
某些SV的检测工具仅能检测出某些类型的重组, 从而忽略了其他的SV类型. GRIDSS，HYDRA和SOCRATES可以检测出SV的断点. 另一方面，即使仅存在倒位所需的两个断点之一，BreakDancer，DELLY和Pindel也会检测出倒位事件, 这些工具是不适合分析那些复杂的SV类型的。
集成多个工具的检测也并不是万能的
在作者的测试中, 集成多个工具的检测结果并不比单独的检测工具的结果好. 如果想集成多个检测工具, 最好选择最近发表的基于组装策略的SV检测工具, 比如GRIDSS和manta.
使用集成的工具的另一个选择是可以使用一些已有的流程化的工具, 如MetaSV, SVMerge和SpeedSeq. 也可以使用更复杂的方法集成多个工具, 如机器学习, 但现在还没有现成的工具.
不要使用基于PE方法的工具
现在仅依赖于PE策略的检测方法是不完美的, 较长的reads和较短的reads允许检测较小的SV，但以降低信号强度为代价。至关重要的是，当从同一片段读取的数据开始重叠时（即，当片段大小小于reads长度的两倍时），PE方法的效果急剧下降.
reads数异常高的检测结果可能是参考基因组/比对异常造成的
对于所有的工具（除manta外），具有非常高的打分和reads数覆盖的检测结果绝大多数都是假阳性结果。此类结果通常是由参考基因组比对错误引起的，用户最好过滤掉高覆盖率的结果。
使用专门的工具进行简单，串联和低复杂度重复序列的鉴定
尽管Pindel和manta在检测具有长同源性的SV方面明显优于其他工具, 但是当前的工具仍不能准确地检测简单或串联重复序列, 这需要专门地工具.

参考

Cameron, D.L., Di Stefano, L. & Papenfuss, A.T. Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software. Nat Commun 10, 3240 (2019). https://doi.org/10.1038/s41467-019-11146-4