InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines
摘要
2015年,美国医学遗传学和基因组学学院(ACMG)和分子病理学协会(AMP)根据28项标准发布了关于人类疾病序列变异临床解释的最新标准和指南。然而,由于对这些指南的不同理解以及缺乏实现它们的标准算法等原因,个体解释器之间的差异可能很大,但半自动变异解释的计算工具不可用。为了解决这些问题,我们提出了一套实施这些标准的方法,并开发了一个名为InterVar的工具,以帮助人类reviewers解释变异的临床意义。InterVar可以将预注释或VCF文件作为输入,并根据18个标准生成自动解释。此外,我们还开发了一个配套的web服务器InterVar,通过自动解释步骤和手动调整步骤实现用户友好的变体解释。这些工具对于解决具有高外显率的严重先天性或极早发性发育障碍特别有用。利用一些已发表的测序研究的结果,我们证明了InterVar在显著缩短解释序列变异临床意义的时间方面的效用。
介绍
随着大规模并行下一代测序(NGS)技术的不断发展和部署,临床和分子实验室现在正在基因测试和人类遗传学研究中迅速采用NGS。尽管各个实验室生成NGS数据变得越来越容易,成本也越来越低,但利用这些数据的主要障碍在于如何解释基因型-表型关系,尤其是在基因组医学环境中。1,2在个体基因组内的数千个遗传变异中,识别致病或致病变异的过程通常涉及多个步骤,如变异注释、变异筛选、电子预测和人类专家的临床解释。3这些步骤中的每一步都可能涉及使用特定的计算和生物信息学工具。
已经开发了一些工具和数据库,以帮助实验室和临床医生了解基因变异对基因和疾病的潜在影响的功能意义。它们通常分为几类。首先,许多注释工具,如ANNOVAR、VAAST、SeattleSeq、SNPeff、和VEP可以预测遗传变异如何影响转录本结构或编码序列。他们可以将变异体分为内含子、基因间、剪接和外显子变异体,对于外显子变异体,他们可以计算氨基酸序列如何受到影响。其次,对于编码变体,各种工具可以通过使用进化信息、蛋白质序列中的上下文和生化特性来预测变体是否对蛋白质功能或结构有害。这些电子方法包括单独的评分系统,如SIFT、PolyPhen-2、CADD、FATHMM和MutationTaster,以及元预测因子,如Condel和MetaSVM。许多人有相似的理论基础,但也有已知的局限性,如中等准确性、低特异性和过度预测。第三,也是最后一点,公共疾病特异性和基因特异性数据库,如人类基因突变数据库(HGMD)、ClinVar和各种位点特异性数据库,可以记录对特定疾病致病的功能或临床验证的遗传变异。HGMD是核基因种系突变的综合集合,是人类遗传性疾病的基础或相关基因,主要根据已发表的文献汇编而成。ClinVar记录了直接从提交者报告的变异的临床意义。然而,这些数据库通常包含在没有对证据进行初步审查的情况下被错误分类的变种,而且它们有时在致病性评估方面有相互矛盾的记录。NIH启动了ClinGen Initiative,以建立一个权威的中心资源,定义用于精确医学和研究的基因和变体的临床相关性。为了提高变体解释的准确性,ClinGen使用了一个排名系统来表示与提交给ClinVar的每次提交相关的质量。尽管存在各种资源,但需要一种更系统的方法来评估测序研究中观察到的遗传变异的致病性,以促进变异的临床评估,并使基因组医学得以精确实施。
为了规范遗传变异的临床解释,美国医学遗传学和基因组学学院(ACMG)在2000年和2007年推荐了序列变异的解释标准,并提供了变异解释的决策树算法。随着NGS的迅速发展和采用,变异解释变得更加复杂,孟德尔和复杂疾病的临床解释出现了新的挑战。为了应对这些挑战并提供更具体的指南,ACMG和分子病理学协会(AMP)于2015年5月发布了最新的序列变异解释指南。新报告描述了通过使用专家意见和经验提供的标准对序列变体进行分类的更新标准和指南。为了更好地描述孟德尔疾病相关基因中发现的变异的因果关系,ACMG和AMP建议使用广泛使用的五级分类系统——致病性、可能致病性、不确定意义、可能良性和良性——来对变异进行分类。该系统基于不同的数据来源,总共使用了28个标准,如population data, silico data, functional data, and segregation data。ACMG和AMP还提出了一套评分规则,这些规则结合了标准,给出了遗传变异的五级分类系统。
尽管ACMG-AMP指南的制定是为了对遗传变异进行一致和可靠的解释,但ACMG-AMP标准的应用仍然涉及实验室内和实验室间设置之间的一些差异。已经采取了一些措施来减少实验室间的不一致,但在实验室间分类中,超过66%的变异分类仍然不一致。这种不一致可能有几个原因。对于许多临床实验室来说,使用现有的信息学工具很难将变量评分规则实施到标准化的工作流程中。例如,ACMG和AMP建议在解释过程中使用28个标准;然而,收集关于每项标准的信息相当复杂,可能不容易由个别interpreters完成,或者同一interpreters可能无法在不同时间重复。此外,ACMG和AMP仅提供了关于如何评估每个标准的一般指南,但没有提供实施这些指南的具体算法(例如,使用哪些数据库);不同的研究人员可能更喜欢使用不同的算法,这使得结果在不同的人类口译员之间不太容易重复。最后,尽管各种数据库(如ClinVar和1000基因组项目)或silicon工具(如SIFT和Polyph-2)可以在线使用,并且普通用户可以轻松访问,目前缺乏将所有这些数据库结合在一起的工具,为人类interpreters提供一站式服务,以得出基因变异的最终分数。解决这些挑战需要易于使用但自动化的计算工具和网络服务,这些工具和服务可以为每个变异生成版本化且可复制的标准,并帮助人类口译员快速理解基因变异的临床意义。在这项研究中,我们提出了这样一个工具InterVar(遗传变异的临床解释),以根据2015年ACMG-AMP指南和用户提供的领域知识来满足这些未满足的需求。
变体注释的生成
InterVar所需的输入是一个简单的以制表符分隔的文件,其中包括一个已经用一组必需信息注释的变体列表,如氨基酸变化和等位基因频率。用户可以使用内部变量分析工作流自行生成该输入文件;或者,InterVar可以获取VCF文件,调用ANNOVAR软件(一种功能强大且广泛使用的注释工具),并生成所需的输入数据。下面是运行ANNOVAR的命令行示例:“perl table_annovar.pl input.vcf humandb/ -buildver hg19 -remove -out output -protocol refGene,esp6500siv2_all, 1000g2015aug_all,avsnp144,dbnsfp30a,clinvar_20160302,exac03, dbscsnv11,dbnsfp31a_interpro,rmsk,ensGene,knownGene -operation g,f,f,f,f,f,f,f,f,r,g,g -nastring. -vcfinput”。这些数据库的描述如下:“esp6500siv2_all”是NHLBI外显子组测序项目(ESP6500)中等位基因频率的数据库,“refGene”是RefSeq中基因注释的数据库,“1000 g2015aug_all”是1000基因组项目27(2015年8月版)中的替代等位基因频率(AAF)数据库,“exac03”是外显子组聚合联合会(ExAC)Browser28(0.3版)中的AAF数据库,“dbnsfp30a”是一个数据库,用于dbNSFP29,30(版本3.0a)中的各种功能性有害性预测分数,“clinvar_20160302”用于ClinVar20(版本20160302)中报告的变体,“avsnp144”用于ANNOVAR编译的dbSNP(版本144),“ensGene”用于Ensembl中的基因注释,“knownGene”用于UCSC已知基因的基因注释,“dbnsfp31a_interpro”是来自dbNSFP29、30和InterPro31的域信息数据库(集成了有关蛋白质家族、域和功能位点的信息),“dbscsnv11”是一个用于预测Ada Boost和Random Forest对剪接影响的数据库,而“rmsk”是一个位于UCSC基因组浏览器重复屏蔽轨道上的数据库。这些数据库在可用时可能会更新为新版本。
标准和评分系统
根据2015年ACMG-AMP指南,标准分为两组:致病性或可能致病性(P/LP)和良性或可能良性(B/LB),而“不确定意义”被分配给P/LP和B/LB标准相互矛盾或不符合的变体。共有28个标准:P/LP标准的16个标准是非常强(PVS1)、强(PS1-PS4)、中等(PM1-PM6)或支持(PP1-PP5);而B/LB标准的12个标准是独立的(BA1)、强大的(BS1-BS4)或支持的(BP1-BP7)。如果标准为正,InterVar将指定1;否则,InterVar将分配0。对于这28个标准,InterVar可以根据当前注释数据集自动生成18个(PVS1、PS1、PS4、PM1、PM2、PM4、PM5、PP2、PP3、PP5、BA1、BS1、BS2、BP1、BP3、BP4、BP6和BP7)的预测,但其余(PS2、PS3、PM3、PM6、PP1、PP4、BS3、BS4、BP2和BP5)需要用户在手动调整步骤中输入。下面,我们将详细介绍如何从各种注释信息源分配这些标准。
PVS1自动评分
空变异体包括无义变异体、移码indel和规范剪接变异体,它们通常会导致功能丧失(LOF)。根据ANNOVAR注释,这些LOF变体在规范转录本中被表示为移码indel、停止增益、停止丢失和剪接变体。我们首先筛选ClinVar(版本20160302),方法是获取MedGen中显示的变异,然后删除常见变异(等位基因频率>5%)和注释冲突的变异。ClinVar中的变异由ANNOVAR用RefGene定义进行注释,我们确定了1988个基因至少包含一个在ClinVar中“致病”的LOF变异。最近,ExAC分析了60706个个体的高质量外显子(蛋白质编码区)DNA序列数据,并确定3230个基因为LOF不耐受基因。我们结合了来自ClinVar和ExAC浏览器的这两个基因集,生成了4807个基因作为我们的最终LOF不耐受基因列表。这4807个基因的标准转录本中的空变体被分配了1的PVS1。然而,在无意义介导的mRNA衰变的经典规则的基础上,我们没有考虑在最终外显子连接复合体的下游或在50个核苷酸内的无义变体。
PS1和PM5自动评分
一般来说,如果一个错义变体是致病性的,那么导致相同氨基酸改变的不同核苷酸变化也应该是PS1的致病性。然而,如果不同的核苷酸变化导致不同的氨基酸变化,则表明PM5具有一定的致病性。我们首先过滤ClinVar(遵循上述相同的数据清理程序),挑选出所有注释为致病性的错义变体,并将氨基酸变化存储在一个特定于InterVar的数据库中。我们还通过ANNOVAR从“dbscsnv11”数据库推断了这些外显子错义变体的剪接影响,以评估它们通过剪接中断而非氨基酸变化发挥作用的可能性。如果用户应用的变量导致氨基酸发生变化,PS1值将被指定为1。但是,如果用户提供的变体导致不同的氨基酸变化,则PM5将被指定为1。
PS2和PM6通过人工评分
如果母性和亲子关系都能得到确认,变异的新发状态为PS2的致病状态提供了强有力的支持;如果母性或父性未得到确认,则应将致病性的中度证据应用于PM6。由于InterVar无法直接注释用户输入变量的新发状态,因此在InterVar的第二步(手动调整)中,PS2和PM6被视为用户提供的值。
PS3和BS3通过人工评分
如果体外或体内功能研究支持对基因或基因产物产生破坏性影响,则PS3应被指定为1。如果体外或体内功能研究显示对蛋白质功能或剪接没有破坏性影响,则BS3应被指定为1。InterVar没有关于功能研究的信息,因此默认情况下,这些值为0,可以由用户覆盖。未来,我们可能会建立一个数据库,其中包含已知会影响基因或基因产物功能的经验证的基因变体。
BA1、BS1、BS2、PS4和PM2自动评分
鉴于人群中频繁发生的变异不太可能导致罕见疾病,对照人群中的AAF可用于评估变异的致病性。我们从孤儿网检索疾病流行信息,并将孤儿网标识符翻译成OMIM标识符。在这里,我们使用了三个数据集来评估变异频率:NHLBI外显子组测序项目(ESP6500)、1000基因组项目和ExAC浏览器。如果任何数据库中的任何AAF大于5%,BA1将被分配为1。如果ExAC浏览器中的AAF对于相应基因突变引起的疾病比预期的大,BS1将被指定为1(这里,我们为罕见疾病设置了默认的截止值为1%,但用户可以在InterVar的配置文件中指定自己的截止值)。如果在1000个基因组项目中的健康成年人中观察到一种变体为纯合子(在OMIM中为隐性),或者是杂合子,那么BS2将被应用。我们手动将已知的主要成人发病障碍排除在考虑范围之外。我们没有使用ExAC浏览器或ESP6500,因为这些数据集可能包含来自不同疾病个体的变异。
在一个大的对照组中,缺失或出现频率极低的变异可能是致病性的中度证据。如果在ESP6500、1000基因组项目和ExAC浏览器的所有对照受试者中都没有导致显性疾病的变异,将应用PM2。如果该变异引起隐性疾病,且AAF<0.5%的频率非常低,那么PM2也可以应用。有关基因-疾病关系的信息,如显性或隐性,可从OMIM获得。
在某些情况下,受影响受试者的致病性变异频率明显高于对照受试者。为了处理这些变异,我们还对优势比(OR)>5.0的所有变异根据GWASDB版本2进行了分类。对于这些变体,将应用PS4。对于一些病例对照研究可能达不到统计学显著性的罕见变异,PS4也可以在手动调整步骤中降级到中等水平。
PM1通过自动评分
许多蛋白质结构域对蛋白质功能起着至关重要的作用,因此这些结构域中的错义变体往往具有致病性。ANNOVAR可通过“dbnsfp31a_interpro”数据库从dbNSFP推断域信息。我们首先用蛋白质结构域信息注释了所有ClinVar变体(遵循上述相同的数据清理程序),然后编制了一份列表,其中结构域仅包含致病性或可能的致病性变体,没有良性或常见(等位基因频率>5%)变体。该列表在InterVar软件包中提供,并将定期更新。如果用户的输入变量位于这些域中,则将应用PM1。
PM3和BP2通过人工评分
变异株的致病性也需要根据是否存在已知致病性的变异株或与之相关的突变株来评估。InterVar不知道变量的CIS/transstatus,因此这需要由用户在InterVar的第二步(手动调整)中提供。对于与隐性疾病相关的基因中存在的两个杂合子变体,如果一个是致病性的,另一个位于内部,则将应用PM3的中度证据。如果在肠道内观察到两种以上的变种,那么致病性的中度证据可以升级为强证据。如果这些变异存在于与显性疾病相关的基因中,但其中一个变异是致病性的,另一个位于内部,那么另一个变异的良性状态的支持证据将应用于BP2。无论疾病遗传模式如何,对于两种变体,如果一种是致病的,另一种是观察到的,那么BP2将应用于另一种变体。
PM4和BP3通过自动评分
Indels和stop loss可以改变蛋白质的长度,破坏蛋白质的功能。我们使用UCSC基因组浏览器中的“rmsk”数据库对重复区域进行注释。这个数据库是由RepeatMasker程序创建的,该程序筛选DNA序列中的穿插重复和低复杂性DNA序列。当变体为“非移码插入”、“非重复区域中的“非移码删除”或stop loss变体时,将应用PM4。如果变量在重复区域中为“非移帧插入”或“非移帧删除”,则将应用BP3。
PP1和BS4通过手动评分
带有疾病的变体的家族分离是将该变体与该疾病联系起来的一个重要标志。如果在多个受影响的家庭成员中发现分离,并且确定该基因与该疾病相关,则将应用PP1。当家庭中受影响的成员缺乏隔离时,将应用BS4的良性支持证据。由于InterVar不知道有关隔离的信息,用户可以在InterVar的第二步(手动调整)中提供这一证据。
PP2和BP1通过自动评分
对于许多基因来说,致病性和良性变体的谱或分布可以为致病性状态提供信息。对于一个给定的基因,如果错义变体是该疾病的常见原因,并且该基因也只有很少的良性变体,那么该基因中的错义变体可以作为致病性的支持证据,PP2将被应用。然而,如果截短变异是该疾病的主要原因,那么该基因中的错义变异可以作为良性状态的证据,BP1将被应用。
我们在ClinVar中注释了所有变量(遵循上述相同的数据清理过程)。对于给定的基因,如果大多数致病性变体(>80%且至少一个变体)为错义,并且如果一小部分(<10%且少于一个变体)的错义变体为良性,那么对于错义变体,PP2将被分配为1。BP1的治疗与PP2相似,但我们评估了大多数致病性变体(大于80%且至少有一种变体)是否为截断型变体。截断变量定义为停止增益、停止损耗、移码索引或中断拼接站点。如果用户的变体在该基因中未被识别,BP1将被指定为1。
PP3和BP4通过自动评分
当多个计算证据支持对基因或基因产物产生有害影响(保护、进化、剪接影响等)时,PP3的支持致病性证据将被指定为1。相比之下,当多个计算证据表明对基因或基因产物没有影响时,支持BP4的良性证据将被分配为1。当分配PP3或BP4时,所有的电子结果集必须一致。
ANNOVAR可以从“dbnsfp30a”数据库中提供这些多个计算证据,其中MetaSVM分数用于有害性预测,GERPþþ用于进化保护。ANNOVAR可以从“dbscsnv11”数据库中推断剪接影响。对于PP3和BP4的证据,我们将MetaSVM得分截止值设置为0.0(得分越高,说明更可能产生有害影响),GERPþþRS为2.0(分数越小表示保护程度越低),dbscSNV的自适应增强(ADA)和随机森林(RF)分数0.6作为剪接影响(分数越大表明剪接改变的可能性越大)。
PP4手动评分
对于给定的基因,如果个体的表型或家族史对与该基因相关的疾病具有高度特异性,那么它是致病性的支持证据;在这种情况下,应使用PP4。用户需要在InterVar的第二步(手动调整)中提供此信息。
PP5和BP6通过自动评分
如果一个声誉良好的来源已经报告了一种变异为致病性,但没有提供独立评估的证据,那么将应用PP5。当一个声誉良好的来源已经报告了一个良性变异,但没有详细证据时,将采用BP6。在InterVar中,我们默认使用ClinVar数据集(遵循上述相同的数据清理程序)执行此分析,但用户可以选择使用HGMD或其他专有数据库进行此分析。
BP5人工评分
如果一种疾病有另一种分子基础(由多个基因引起),并且在与该疾病相关的基因中观察到变异,那么它将支持良性状态的证据,BP5将被指定为1。注意,与显性疾病相关的基因比与隐性疾病相关的基因更符合这一标准。由于该标准存在多个例外情况,如前所述,用户可以在手动调整步骤中使用自己的知识调整该标准。
BP7通过自动评分
如果同义(沉默)变体对剪接没有影响,并且核苷酸位置不高度保守,那么我们可以将该变体归类为良性变体,并将BP7归类为1。ANNOV AR可以使用“dbscSNV”数据库提取对剪接影响的预测。当预测该变体对剪接没有影响时,dbscSNV_RF_得分和dbscSNV_ADA_得分均应<0.6。从“dbnsfp30a”数据库中检索保存信息,其中GERP评分>2表示核苷酸高度保守
InterVar和wInterVar
InterVar是用Python编写的命令行驱动软件,可以作为独立的应用程序在安装Python的各种操作系统(包括Windows、Linux和macos)上使用。InterVar的源代码可以从GitHub获得。
InterVar采用预先注释的文件集分隔格式或VCF格式或ANNOVAR输入格式的未注释输入文件,其中每行对应一个基因变体。如果输入文件没有注释,InterVar将调用ANNOVAR生成必要的注释。用户还可以使用ANNOVAR以外的软件工具生成预注释文件。InterVar的执行主要包括两个主要步骤:(1)使用上述标准自动解释变异;(2)手动调整特定标准以重新解释临床意义。但是,用户也可以为标准的子集指定自己的证据文件,并使用参数“-evidence_file”将其导入InterVar,这样一个步骤就足以生成最终结果。在输出中,根据用户自动生成或手动提供的所有28项标准,根据2015年ACMG-AMP指南中规定的规则,每个变体将被指定为致病性、可能致病性、不确定意义、可能良性或良性。
我们还开发了一个名为wInterVar的web服务器,它为InterVar提供了一个图形用户界面。用户可以通过染色体位置、dbSNP标识符或带有核酸变化的基因名直接将错义变体输入wInterVar。wInterVar服务器将提供关于变体的完整细节,包括所有自动生成的标准、大多数支持性证据和子群体信息。然后,用户可以手动调整这些标准,并重新提交到服务器以执行重新解释。我们扫描了所有的外显子,并对每个位置产生了所有三种可能的核苷酸变化。如果突变不是同义的,我们将其保存在数据库中。人类基因组包含大约8000000个非同义变体,我们预先计算了所有这些变体的18个标准。因此,wInterVar的执行速度非常快,通常不到1秒就可以获得变量的结果。然而,wInterVar服务器无法处理其他类型的变量(例如indels),用户需要依赖InterVar。
结果
解释程序概要
InterVar的流程图如图1所示。InterVar主要包括两个主要步骤:(1)对18项标准中的每一项进行自动评分;(2)对特定标准进行手动审查和调整,以得出最终解释。在第一步中,InterVar调用注释软件,如ANNOVAR,以获取有关变体的必要注释信息,然后使用其自己的内部注释数据库来补充其他注释。InterVar使用这些关于变体和基因的注释,对变体进行初步解释,并提供所有相关证据供手动审查。目前,第一步可以自动生成并使用18条标准。在第二步中,用户可以根据先前信息(例如变体的从头状态)或他或她自己的领域知识手动调整每个标准,以达到最终解释。我们在此强调,自动评分是基于默认参数的,建议用户检查详细证据,并使用先前的技术和/或疾病知识进行手动调整。图2详细解释了这28项标准。
Image.png图1 带下划线和粗体字体的两步程序流程图表示自动标准
image.png图2 关于2015年ACMG-AMP指南中的28项标准的说明,对于某些条件,内部数据库的名称及其大小用括号表示。
例如,在SCN8A第7外显子(MIM:600702)中考虑错义变异CHR12:520934 47 T>C(GRCH37坐标),这导致早期婴儿癫痫性脑病13型(MIM:614558)。最近,我们报告了一位女性在4个月大时出现了一种新发或行走障碍的症状,包括她在5岁时出现的一种新发或行走障碍。我们说明了该变体的评分逻辑。这种变体位于一个叫做离子转运域的蛋白质结构域中。这个域在InterVar编译的公共数据库中没有任何良性变体,因此我们将PM1指定为1。此外,1000基因组项目、ExAC浏览器或ESP6500中不存在这种变体,因此PM2被指定为1。对于CN8A,所有已知的致病性变体均为错义,因此PP2被指定为1。根据2015年ACMG-AMP规则,该变体属于“不确定重要性”类别在第二步中,如果我们通过提供PS2=1的从头信息手动调整标准,那么临床意义将根据“1强(PS1–PS4)和1–2中等(PM1–PM6)”改变为“可能致病性”本程序说明了如何使用自动解释和手动调整来推导遗传变异的最终解释。
神经发育障碍中从头变异的解释
我们从12项已发表的关于自闭症谱系障碍、发育障碍、精神分裂症、癫痫性脑病和智力残疾的基于三位一体的外显子组测序研究中收集了9305个从头变异的数据集。其中,从受影响受试者(n=6515)中检测到8346个变体,从对照受试者(n=900)中检测到959个变体。在受影响受试者的8346个变体中,4526个为非同义变体,导致3462个基因的编码序列发生变化,而对照受试者的592个基因中存在616个非同义变体。
接下来,我们使用程序中的默认选项,通过InterVar对所有这些变异进行自动变异解释,并将这些疾病的预期患病率设置为1%(表1)。鉴于每个已发表的外显子组测序研究都使用Sanger测序来验证变异的从头状态,我们将PM6指定为1,这表明这些变异被认为是没有确认父系或母系的从头变异。在这些变异中,4459(53.4%)和493(51.4%)分别被解释为在受影响和对照受试者中具有不确定的意义。在受影响的受试者中,430(5.1%)和1666(20.0%)变异分别被解释为致病性和可能致病性。在对照组受试者中,分别有10个(1.0%)和206个(21.5%)变异被解释为致病性和可能致病性。
接下来,我们将具有良性或可能良性解释的变异组合为一个类别(B/LB),将具有致病性或可能致病性的变异组合为另一个类别(P/LP),并比较受影响和对照受试者之间的频率。(请注意,我们无法访问个人层面的数据,因此我们下面的分析侧重于比较受影响受试者和对照受试者之间检测到的变异。)在受试者中,我们使用Novode s/00P的精确解释检测到受影响的LP变异。这一结果证实,与对照受试者相比,神经发育障碍受试者中可能致病的从头变异更为普遍。请注意,该分析仅利用了自动解释(步骤1)的结果,未考虑基于变体、基因、表型或疾病的其他领域知识的手动调整(步骤2)。
相比之下,我们还通过使用SIFT和PolyPhen-2评分预测了这些变异的致病性,这些评分适用于一部分变异(表2)。SIFT预测8346种变异中有2242种(26.8%)对神经发育障碍受试者有害(SIFT<0.05为临界值),而959种变异中有283种(29.5%)对对照受试者有害。PolyPhen-2预测8346种变异中有3157种(37.8%)可能对受影响的受试者造成损害或可能造成损害(PolyPhen-2_HDIV>0.453为临界值),并预测959种变异中有403种(42.0%)可能对对照受试者造成损害或可能造成损害。比较受影响受试者和对照受试者(表2),我们没有观察到这两种方法对P/LP变异的强烈富集(筛选试验为P=0.64,多酚-2_HDIV为P=0.08)。这些结果表明,在外显子组测序研究中,单凭计算机预测可能不足以识别P/LP变体。
ClinVar的比较分析
尽管HGMD、ClinVar和OMIM等变异数据库对于编目已知与人类疾病相关的遗传变异非常有用,但它们也存在已知的局限性,例如,一部分良性变异被错误地归类为致病性变异。48,49例如,Dorschner等人50手动检查了239种报告为HGMD致病性的独特变体的主要文献,并确认只有7种。5%的病毒来自原始出版物。HGMD与临床实验室之间变异临床意义的差异也突显了文献中缺乏将变异解释为致病性或可能致病性的标准。类似地,Bell等人51发现文献中引用的致病性变体中有27%是常见的多态性或注释错误,强调了对更好的突变数据库的需要。有趣的是,我们最近对一个个人基因组进行了测序,并确定了两个在ClinVar中报告为致病性的变体,但对引用出版物的手动检查表明,在最初的出版物中,这两个变体均未报告为致病性。52近年来,人们越来越多地认识到这一问题,48这表明各种数据库中的“已知”致病性变体不应只是表面上的,而应该进行更详细的重新检查。在这里,我们分析了整个ClinVar数据集,并将其注释与InterVar的自动解释(步骤1)进行比较,以评估一致性率并检查不一致的来源。我们认识到,由于InterVar从ClinVar编译了一些内部数据库,其解释可能会稍微偏向于更类似于ClinVar。
我们检索了ClinVar版本2016-03-02,并选择了所有非冲突非同义变异,分类为以下其中一种:
(1) 良性或可能良性和(2)致病性或可能致病性。然后,我们使用InterVar中的自动解释功能重新解释了这些变量(表3)。对于ClinVar中的良性类型,InterVar还将4898(80.6%)个变异分类为良性或可能良性,这表明InterVar在这类变异上与ClinVar基本一致。然而,对于致病类别中的变体,InterVar和ClinVar有很大的差异。事实上,InterVar仅将2058个(13.9%)变种归类为可能致病,但没有一个被归类为致病。显然,我们承认InterVar的所有这些解释都是基于第1步中的18条标准,并且没有一条经过手动检查;然而,额外的信息,如家族隔离、家族史和新发状态,可能会将一些意义不确定的变体转移到更有害的类别(可能是致病性或致病性的)。
image.png鉴于临床变量注释和变量间预测之间的差异,我们对513个(3.5%)变异进行了更详细的分析,这些变异被临床变量归类为致病性,但被InterVar预测为良性或可能良性。首先,我们在三个数据库(1000基因组项目、ExAC浏览器和NHLBI ESP6500;图3)中绘制了这些变体的最大AAF分布图。从这项分析中,我们发现AAF>0.01的变异超过10%以及5%的变异AAF>0.1。显然,>10%的变异可能仅仅是遗传多态性,在ClinVar中被错误地归类为致病性。然而,我们也证实,在ClinVar中,一半以上的致病性或可能的致病性变体非常罕见,AAF<0.0001,且>85%的致病性变体的AAF<0.001,这符合我们的期望。对于这些变异的手动检查,疾病患病率的截止值对于指定良性标准(如BS1)至关重要。
image.png图3 致病性或可能致病性临床变异的AAF分布,通过InterVar和所有致病性或可能致病性临床变异预测为良性或可能良性
对先前报道的临床可操作变异的分析
临床外显子组和基因组测序可能会发现与排序测试的适应症无关但具有临床意义的“偶然发现”。53 ACMG建议从至少56个可操作基因中重新获得偶然发现,53但许多研究人员使用了根据领域知识选择的扩展基因列表。有几项研究检查了大规模基因组或外显子组测序项目的偶然发现,因此我们在这里研究了InterVar如何对先前研究中报告的临床可操作的遗传变异进行分类。
Amendola等人之前研究了4300名欧洲裔美国人和2203名非洲裔美国人的外显子组测序数据,作为NHLBI ESP6500的一部分,并报告了112个可操作基因中的616个变体(表4)。根据HGMD注释,这616个变种被归类为可作用和致病性。Amendola等人使用自己的分类标准(例如基于等位基因频率、分离、从头状态、功能数据等的规则)对这616个变体进行了重新分类。他们发现只有70个(11.4%)为致病性或可能致病性,但其中大多数(66.4%)被归类为意义不确定的变体。来自InterVar的自动预测(步骤1)仅将33个(5.4%)变种归类为致病性或可能致病性,而大多数变种(43.2%)归类为良性或可能良性。请注意,在变体分类过程中,Amendola等人利用了分离和从头状态等信息,但我们无法访问这些信息。因此,如果提供更多信息,在第2步(手动调整)中按InterVar分类的致病性变体数量可能会显著增加。然而,这些结果已经表明,InterVar的解释与Amendola等人的手动解释一致,他们得出结论,在HGMD中注释为致病性的绝大多数变体可能不是真正的致病性。该分析证实,当HGMD是用于解释变异的唯一标准时,即使在ACMG可作用基因中,致病性变异的不正确分类也是一个重大问题。
与CLINVITAE的对比分析
CLINVITAE是一个从公共来源聚合的临床观察到的遗传变异数据库,由INVITAE运营并免费提供。尽管绝大多数变异是从公共数据库收集的,但INVITAE团队检测到了11696个变异并对其进行了分类。与从不同来源收集信息的ClinVar和HGMD不同,CLINVITAE可能代表了由一组一致的机构特定规则解释的更同质的变体集合。在11696个变种中,5405个(46.2%)和717个(6.1%)分别被归类为良性或可能良性和致病性或可能致病性。其中,4226(36.1%)个良性或可能的良性变体也被InterVar分类为良性或可能的良性,而只有227(1.9%)个致病性或可能的致病性变体被InterVar分类为致病性或可能的致病性(表5)。这一分析再次表明,良性或可能良性变异的自动解释变量与专家编辑分类之间的一致性高于致病性或可能致病性变异。
wIntervar:InterVar的网络版,便于手动解释
SeeVar是指用户可以在web服务器上使用InterVar命令来执行在线解释。wInterVar服务器有两个步骤来评估和调整变异的临床意义:用户首先输入变异以获得预计算的自动解释(图4A)。在查看自动解释的结果后,用户可以单击“调整”按钮,通过根据其他信息和领域知识选择和取消选择适当的标准来执行手动调整步骤。然后,wInterVar服务器将通过两步程序执行最终解释(图4B)。我们评估了InterVar和wInterVar的速度。使用一台拥有16GB内存和两个Intel Xeon X5650(2.67GHz)CPU的机器,InterVar管道大约需要40分钟来注释整个基因组中的3000000个变体。如果已有ANNOVAR注释文件可用,则运行时间可以大大减少到<5分钟(每个变量约0.1毫秒)。对于wInterVar服务器,所有可能的非同义变体的所有注释结果都已预先计算并导入NoSQL数据库系统MongoDB。因此,用户可以快速搜索特定的变体,并收到几乎立即的响应(变体小于1s)。此外,用户可以手动调整标准,并重新提交给wInterVar,以获得最终解释,并几乎立即做出响应。
讨论
在本文中,我们介绍了两种计算工具InterVar和wInterVar,用于根据2015年ACMG-AMP指南对遗传变异进行循证临床解释。据我们所知,我们不知道学术界可以免费使用并执行类似功能的软件工具。我们希望强调的是,尽管InterVar是一种计算工具,但它需要人工输入,才能通过两步设计得出准确的结果:第一步,InterVar使用初步结果进行自动解释,但在第二步,InterVar利用人类专家提供的额外信息来调整标准并提供最终解释。两步程序允许InterVar尽可能利用自动信息检索,同时也允许人类专家的额外输入,以获得对基因变异的最准确解释。
我们应用InterVar对神经发育疾病受试者和对照受试者的从头变异进行注释和解释,并观察到受影响受试者中致病性或可能致病性变异的强烈富集。相比之下,简单的有害性预测算法,如SIFT和Polyph-2,无法区分受影响的受试者和对照受试者。这一观察结果表明,应编制多个标准来源(在本例中,多达28个标准),包括有害性预测算法,以评估遗传变异的潜在致病性,而不是仅依赖有害性预测算法。
目前,许多公共数据库,如ClinVar和HGMD,记录了遗传变异的临床意义,这些变异大多由提交者提供或根据科学文献手工编辑。由于不同的提交者或不同的作者可以有非常不同的标准来评估遗传变异的致病性,这些数据库中条目的质量可能是高度异质的。因此,预计这些数据库中的部分致病性变体可能只是误判的假阳性。48–51一些研究表明,在人工重新解释后,许多致病性变体确实是良性的,或者具有不确定的意义。55–57我们在当前研究中的结果进一步支持了这样一个观察结果,即有记录的致病性或可能的致病性变体中有很大一部分确实是在人群中分离的多态性,不太可能对疾病风险做出显著贡献。这些观察结果进一步支持了诸如ClinGen等努力的重要性,这些努力旨在汇编高质量、具有置信度的金标准数据集,供社区用于更准确地解释遗传变异。
InterVar有几个限制,我们希望在这里讨论。首先,InterVar需要一个变体知识库来进行准确解释,因此某些基因中的某些变体可能比其他基因更准确地解释。例如,经过充分研究的基因往往在临床数据库中有更多条目,并且更可能被准确解释。其次,InterVar旨在解释可能导致孟德尔疾病或对孟德尔疾病具有高度渗透性(OR>5)且不能处理增加对常见和复杂性状易感性的等位基因的遗传变异。因此,我们警告说,目前的解释仅适用于孟德尔疾病或孟德尔形式的复杂疾病。第三,尽管我们提供了一组默认数据库,以帮助实施2015年ACMG-AMP标准中的18项,但预计不同的用户或团体可能希望使用这些标准的各自版本。因此,我们将InterVar设计为高度灵活地为每个标准提供用户提供的注释,以适应具有不同需求的各种用户。
我们希望强调的另一个问题是,2015年ACMG-AMP指南使用了28个同等权重的标准。一个基本原理可能是,鉴于解释基因证据的复杂性,很难量化每个标准的贡献。25另一个潜在原因是,临床医生和研究人员直观上更容易理解和实施同等权重。然而,对于致病性的分类或致病性的定量预测,不同类型的标准可能有不同的贡献和权重。如果我们能够积累大量的真阳性和真阴性数据集,未来就有可能应用机器学习方法,对遗传变异的致病性进行更准确的预测和定量评估。
我们想强调的一个重要注意事项是,InterVar更适合于解决具有近100%渗透率的严重先天性或长年发病的发育性疾病的变异性解释问题,但对于晚发或隐性疾病,它的效果可能不那么好。例如,肌萎缩性脊髓侧索硬化症(ALS)是一种致命的、进行性的神经退行性疾病,非经典IkB激酶家族成员TANK结合激酶1(TBK1 [MIM: 604834])最近在2874名ALS个体和6405名对照个体的全外显子组测序中被确定为ALS相关基因。InterVar将研究中报告的所有TBK1变体分类为良性或具有不确定意义。另一个例子是TREM2(MIM:605086),与阿尔茨海默病有关,来自最近对1092名受影响者和1107名对照受试者的异质群体进行的测序研究。在他们的研究中报告了TREM2中的罕见变异(尤其是SNP rs75932628,其关联性最强)。然而,这些变种中没有一个被InterVar预测为致病。一个主要原因是,在编制标准时使用了ExAC浏览器和ESP6500等数据库,但它们在技术上不适合作为对照数据库,因为它们实际上由许多患有疾病的成年个体组成。相比之下,1000基因组计划可能是一般对照受试者的更合适来源,但其样本量太小,无法对罕见变异进行充分评估。在任何情况下,当使用ExAC Browser和ESP6500等数据库时,将BS1和BS2分配给成人发病或晚发性疾病可能会很困难,并且可能需要对这些疾病进行一些特定于用户的调整。
总之,我们开发了计算工具InterVar和网络服务器wInterVar,用于根据2015年ACMG-AMP指南对遗传变异进行临床解释。InterVar可以自动生成18个标准的初步解释,然后允许手动调整其他标准以得出最终解释。InterVar可以很容易地被研究人员和临床医生使用,并将极大地促进我们对人类疾病中基因变异的功能后果的理解。
网友评论