摘要:Manta软件可以从比对文件中检测SVs和indels。它主要开发用于检测单个样品的germline变异和tumor/normal配对样品的somatic变异。它可以在一套流程中高效的发现、组装、打分大范围的SVs,中型indels和大型insertions。该软件主要用于标准计算硬件上进行快速的分析:NA12878细胞系50x覆盖基因组可以在20核服务器上20分钟分析完毕,大多数WGS tumor/normal配对样品可以在2个小时内分析完毕。在SV的检测和打分过程中,Manta结合paired-read和split-read来提高准确性,但是在有其他有力证据的情况下,不需要利用split-read或者断点组装来报告融合。Manta通过连续组装的方法可以使分辨率达到碱基级别,更有利于下游的注释和临床意义分析。Manta软件接受输入BAM或CRAM格式文件,并以VCF4.1的格式报告所有的SV和indels突变。
引言:目前许多前进的结构变异检测方法都集中在科学研究和群体基因组上。然而,目前还没有一个流程专注于快速检测单个或者成组样本的多种类型变异。Manta软件主要专注于临床领域,可以根据输入的比对文件和基因组文件,迅速对变异进行发现、组装、打分。它可以对二倍体的germline类型变异,tumor/normal配对的somatic变异进行检测,而RNA-Seq分析,de novo变异分析,不配对的tumor样品变异分析应用还在开发中。在与其他代表型的工具的比较中,Manta软件可以在显著降低计算成本的情况下,高质量的检测变异。
方法:
流程汇总 :Manta流程设计用于高并行的检测单个或成组的样品。它运行包括两个阶段:1、首先建立基因组内所有断裂关联图表,2、对图表中的组成部分进行处理,包括备选假设变异的生成、组装、打分以及VCF文件的报出。断点关联图表包括了任意基因组区域内远距离相关的边界,和indel组装区域的自边界。由于这个图表不含具体的假设变异,所以它非常的紧凑,可以在基因组范围内进行大片段的重构。在图表重构后,单独的边界(应该是相关的变异)用于后续变异的分析。每个边界都被分析,用于寻找不精确的假设变异,每个变异reads都会被组装并重新比对到基因组上。每个变异都会尝试进行组装,但是组装不是报告一个变异的必须步骤。在先前的germline和somatic变异模型下,所有paired-read和split-read的证据会被整合成一个质量分数,相应的过滤指标也会补充这个质量分数,以提高变异变异检测的精度。为了便于应用,Manta会自动评估插入片段的大小分布排除基因组中高重复区域。
变异检测评估:在CEPH 谱系 1463上评估了变异软件的germline检出能力。为了获得一致的变异检出结果并提供软件之间的recall比较,选择了公认标准的软件进行变异检测并比较。选择Pindel用于检测indels,选择Delly用于检测SVs。每种检测软件检出的变异与Manta检测出的变异会建立pedigree变异一致数据集,用于软件的精度的比较,选择的数据集是NA12878细胞系。Delly软件也被当做是检测somtaitc变异的基准软件,比较了它与Manta在乳腺癌细胞系HCC1954上的检出能力。
Recall = 召回率,评估的是灵敏度
Precision = 精确率,评估的是特异性
结果:表1 结果 从NA12878细胞系的SVs(大片段的缺失和重复)检测结果来看,Manta具有较高的召回率。从NA12878细胞系的Indels检测结果来看,相对于500bp一下的小的插入缺失,大的插入缺失Manta软件的召回率优势更为明显。从HCC1954观测到Manta软件在所有变异类型中都具有强大的性能,并且所有类型中组装到basepair分辨率的比例都很高。
表2结果:通过运行时间或者内存度量,Manta软件在提供更多种类变异类型检测时,具有更低的计算消耗和计算时间。
Manta软件详细的变异检测算法原理稍后补充
参考文献:
Xiaoyu C , Ole S T , Richard S , et al. Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications[J]. Bioinformatics, 2016(8):1220-1222.
网友评论