美文网首页全基因组/外显子组测序分析
多组学文献精读06 | 在10389 个成人肿瘤中致病性胚系突变

多组学文献精读06 | 在10389 个成人肿瘤中致病性胚系突变

作者: 珠江肿瘤 | 来源:发表于2020-04-21 07:52 被阅读0次

Pathogenic Germline Variants in 10,389 Adult Cancers

在 10389 个成人肿瘤中致病性胚系突变

(Cell, IF=36.216)

01 知识补充

  1. 胚系突变 与 体细胞突变

胚系突变来自于上一代,可以遗传给下一代,下一代的所有细胞都将携带该突变;而体细胞突变是在发育过程中发生的突变,仅身体的部分细胞携带该体突变,不能遗传给下一代。

2. 肿瘤易感基因:某基因发生胚系突变后,高度或中度增加个体患癌风险。这样的基因称为肿瘤易感基因(Genes in which germline mutations confer highly or moderately increased risks of cancer are called cancer predisposition genes)

Summary:

在来自 TCGA 33 种癌症类型的 10389 例病例中进行肿瘤易感基因的研究,发现 853 个致病性或可能致病性 变异。21 个基因显示出一个或多个肿瘤类型关联,包括黑色素瘤中 SDHA 和胃腺癌中 PALB2 的新型关联。659 个易感基因和 18 个大缺失(拷贝数丢失)发生于抑癌基因,包括 ATM,BRCA1 和 NF1,显示出低基因 表达和频繁(43%)的杂合性或双等位基因两次击中事件。33 个胚系突变发生于原癌基因,包括与高基因 表达相关的 MET,RET 和 PTPN11 错义突变。47 个肿瘤易感突变来源于 VUS,该结论得到了多个证据的支持,这些证据涉及病例控制频率,杂合性缺失,表达效果以及与突变和修饰残基的共定位。该研究的综合分析将罕见的易感变异与功能性结果联系在一起,为将来的肿瘤中突变分类和种系遗传测试指南提供指导。

02 介绍部分

胚系突变的研究现状:很大一部分癌症是可遗传的,但已知的常见变异仅解释了肿瘤遗传因素的极小一部分。已发现 100 多个基因(主要是抑癌基因)具有罕见的易感等位基因。尽管越来越多的证据表明,在各 种肿瘤类型中有共同的易感因素,但目前关于种系变异的大多数报道主要集中在单一肿瘤类型上。先前的泛肿瘤研究在 TCGA 和 COGS 和 PCGP 数据库样本中发现一些致病性胚系突变。随着测序项目的扩大,需要进行大规模的系统分析,以提高统计效能并比较不同基因和不同癌症类型的易感因素。

种系变异的临床解释:ACMG-AMP 指南(美国医学遗传学和基因组学学院–分子病理学协会)为解释遗传性疾病的序列变异提供了一套系统的方法。但是现有数据库和主要文献中罕见的和矛盾的结果,较大部分 变体被归为不确定意义(VUS)类别。与种系变异相关的高通量数据的系统分析,如匹配的肿瘤测序和 mRNA 测序数据,可以提供功能结果的证据,并进一步为临床解释提供依据。例如,从匹配的肿瘤和正常样品的测序分析中得到的等位基因片段,可以验证在经典两次打击模型的背景下抑癌基因的变体是否进行正性选 择(positive selection),mRNA 分析可以验证种系截短突变是否导致该基因表达减少。当前的 ACMG-AMP 指南并未使用这种体细胞分析证据来评估胚系突变。

本研究内容概括:研究者分析了 TCGA 队列中 33 种癌症类型的 10389 个个体的致病性突变,发现 8%的病 例携带致病性或可能致病性胚系突变,变化范围从高频的 22.9%(PCPG)到低频的 2.2%(CHOL)。在原癌 基因中发现了 33 个胚系突变,抑癌基因的突变表现出低表达(47.6% in bottom 25% of the carrier sample’s respective cancer cohort)和杂合性丧失(LOH;38.5%),而原癌基因的突变往往伴随的是高水平表达(62% in top 25%)。然后在其他肿瘤队列和 RET 等位基因的实验进行验证,研究者进一步研究这些胚系突变的功能。最 后,基于提示功能的多条证据,研究者发现另外 18 个拷贝数缺失和题名 47 个 VUSs。总而言之,该研究代表了罕见的、胚系易感性突变的最大系统发现,并为解决它们在癌症中的功能提供坚实的基础。

03 结果部分

No.1 数据产生与云共享

image

Figure 1.TCGA 泛肿瘤队列中,含 33 种癌症的 10389 个样本中的易感突变识别.

Fig 1a:TCGA PanCanAtlas 生殖系工作组在系统生物学癌症基因组学云研究所(ISB-CGC)上进行了基因突变研 究,研究成果在研究人员中共享,以进行质量控制和下游分析

image

Fig 1b:对 GenomeVIP(突变召回系统)dockerized 封装,整合 GATK(Genome Analysis Toolkit),VarScan2 和 Pindel 等软件检测到的突变,并进行过滤和注释,总共得到 286,657,499 个外显子变异,范围从平均每个非 洲血统的 33,037 个外显子变异到平均每个欧洲血统的 26,640 个外显子变异。

  • fig 1b:在每一步胚系突变数量,示种系变体的数量从最初的超过 14.6 亿到经人工审查的 1,393 个。853 个 致病性或可能致病性胚系突变用于下游分析

补充:GenomeVIP 突变召回系统:是基于云计算的基因组学(包括胚系突变和体系突变)分析管道,提供 了遗传变异发现和解释的分析工具和计算框架的集合。该服务器和运行环境可以自定义、更新或扩展。

过滤过程:

  • 从 GDC 下载的 TCGA 序列数据,根据以下步骤选择了每例病例的一个种系样本和一个肿瘤样本。使用 GenomeVIP 的 docker 化版本以集成多种工具识别的胚系突变:使用 Varscan 和 GATK 识别了种系 SNV,使用 Varscan 和 GATK 在单样本模式下鉴定出胚系插入缺失(indels),运用 Pindel 预测 indels。对于所有分析, 使用 GRCh37-litereference 并在 BAM 标头中未提供此信息时指定插入大小为 500。

  • 过滤:只保留位于 Ensembl release 70 版本 Coding regions 延长 2bp 区域的突变;单核苷酸变体(SNV) 取 GATK 和 VarScan 结果的并集。indel 必须由三个方法中的两个识别(GATK,Varscan,Pindel)。此外, 还包括高置信度的 Pindel 单独识别(覆盖率至少为 30 倍,VAF 为 20%)。所有突变的 AD(alternative allele)>=5。至此,共有 49,123 个突变;过滤 2:使用 bam-readcount 软件量化参考等位基因和替代等位基 因的数量。要求:alternative allele >= 5 counts;alitrnative allele frquency >= 20%,至此,共有 31,963 个突变。其中,使用 1000 个基因组和 ExAC(release r0.3.1)中等位基因频率≤0.05%作为参数,过滤得到罕见突变。

  • 寻找肿瘤致病性突变:使用 IGV( Integrative Genomics Viewer )软件,查看突变是否出现在癌症突变数 据库中或在癌症易感性基因列表中,以及他们相关的 ClinVar 特征。至此,共有 1,678 个突变。对于具有与体细胞突变相同的基因组变化的候选胚系突变,经过滤后最终产生了 1,393 个通过质量控制(QC)的突变, 可用于下游分析。

  • 将肿瘤致病性突变注释为抑癌基因或原癌基因:结合 Vogelstein 报道的文献和 GSEA 数据库编制了癌基因 和抑癌基因的基因清单。考虑到 NOTCH1 和 NOTCH2 的作用具有争议,研究者从 GSEA 的癌基因分类中将 其删除。除此之外,研究者进一步鉴定多个基因,包括其他肿瘤抑制因子(ATR,BARD1,ERCC1,FANCI, FANCL,FANCM,POLD1,POLE,POLH,RAD50,RAD51, RAD51C,RAD51D,RAD54L,MAX)和其他致癌 基因(AR,STAT3,TERT,MAP2K2)。

Fig 1C:最终分析纳入 33 种癌症类型的 10389 例患者的属性,包括 TCGA 癌症类型的缩写、性别比例和发 病年龄

Figure S1. 样本和胚系突变的质量控制

(A) 用于突变识别的样本的覆盖度分布

(B) 152 个已知致病性突变的平均覆盖深度。质控后保留 10389 个样本。

(C) 突变召回与基因型数据(SNP 芯片)的一致性。从最后的 10389 个样本中剔除一致性低于 60%的样本。

(D) 评估每种癌症类型中变异检出的估计假阳性率。在 KIRC 和 LAML 中,邻近的正常组织(而非血液正常样本)占主导地位,这给突变带来了特殊的挑战。下游过滤过程确保了这些样品中发现的致病图突变的质量。

(E) 33 种肿瘤中识别的外显子突变数量。一个点代表一个个体。低于 15000 外显子变异的样本被移除。

最终有 10,389 个样本通过严格的质量控制标准,显示出良好的覆盖率,突变识别与单核苷酸多态性(SNP) 阵列数据高度吻合(STAR 方法)。在正常的种系样品(germline-normal samples)中,质量控制分析显示, 152 种癌症易感基因具有罕见的致病性变异,其覆盖范围为 18~174X(STAR 方法,表 S1 和图 S1)。与通过 SNP 阵列数据获得的基因型相比,通过外显子获得的突变召回达到了 0.99 以上的平均精度(图 S1)。种系 外显子组显示出较高的质量,平均转化率(TiTv)为 2.88±0.17,λ值(Koire et al,2016)为 0.034±0.003。在 33 种癌症类型中,假阳性的平均预测百分比低于 5%,从 1.2%(MESO)到 16.1%(KIRC,图 S1)。这 些资源与癌症研究者社区在云上共享,以便在全球各个机构之间进行进一步评估。

No.2 33 种肿瘤类型中识别致病性突变

作者团队在 ACMG-AMP 指南基础上扩展开发了一个胚系突变分类的pipeline--CharGer(ding-lab/CharGer)。

  • CharGer 从 ClinVar 获取数据(基因突变与临床疾病的关系)。研究者总共描述了 152 个肿瘤易感基因,在114 个已知易感基因的基础上(Rahman, 2014),增加了来自 St. Jude PCGP germline study 的 15 个基因,来自 Cancer Gene Census-Germline 的 11 个基因和最近报道的 12 个基因(Table S1)。CharGer 评分与自动分类模型:基于 ACMG-AMP 的 12 种致病证据水平和 4 种良性证据标签中的任何一种的 数据对每个变体进行评估,以形成用于自动分类的综合得分。经过 CharGer 评分后,ClinVar 和已整理数据 库中的已知致病变体被标记为致病性,而 CharGer 得分> 8 的变体为可能致病性,而 CharGer 得分> 4 的变 体为 VUS。

  • 自动分类模型的性能检验:在 PCGP 专家小组的儿科肿瘤分类的 883 个胚系突变中,发现致病变异的敏感性为 88%,假阳性率为 4.9%(Zhang 等 等人,2015 年)。

经 CharGer 处理后,筛选出 31,963 个突变,其中 1,393 个通过了正常和肿瘤样品的人工审查。结合现有数 据库和 CharGer 结果,研究者将它们分为 435 个致病性变异,418 个可能的致病性变异和 540 个 VUS(表 2)。

Fig 2a:在所有肿瘤类型中,4.1%(428/10389)样本含有致病性突变,3.8% (390/10389)样本携带可能的致病 性突变。不同肿瘤类型间,致病性突变和可能的致病性突变的频率变化很大, 在 OV(19.9%) 和 BRCA (9.9%)中表现高总体频率。一些肿瘤类型暴露于环境因素,携带较低的致病和可能致病的突变,如 SKCM (6.2%) 和 UVM (葡萄膜 黑色素瘤 5%)。22.9%的 PCPG(嗜铬细胞瘤和副神经节瘤),14.1%的 PAAD 和 12.5%的 SARC(肉瘤) 病例均携带致病或可能致病性突变,这表明易感基因在这些队列中的重要贡献。

Fig 2b:每种肿瘤中,原癌基因与抑癌基因,以及其他基因的胚系突变计数

Fig 2c-2d:每种癌症类型中富集致病性或可能致病性变异的基因。

(c)肿瘤中富集的基因致病性变异的携带频率。每个方框中的数字(携带频率)表示特定肿瘤队列中每个基因的致病 性变异的载体百分比(携带者百分比,percentage of carriers)。黑色轮廓表明该基因的致病变异显著富集与对应的肿 瘤类型(FDR <0.05)。灰色轮廓表示提示性富集(FDR <0.15)。

(d)肿瘤中,抑癌基因和原癌基因的致病性和可能致病性突变的计数

首先,通过与 ExAC non-TCGA 队列中确定的致病性突变或可能的致病性突变进行比较,鉴定出潜在富集度高的癌 症类型。然后,将致病性或可能致病性变异转换至基因水平,进行一种癌症类型对所有其他癌症类型的全频测试(TFT), 减去具有潜在富集的基因,确定了 28 个特定的肿瘤与基因关联(FDR <0.05)和 16 个提示性关联关联(FDR <0.15) (图 2C 和表 S3)。这些来自负荷测试的发现大部分是已知的关联。例如,BRCA1 和 BRCA2 的致病性或可能致病 性变异在OV和BRCA中高度富集(FDR <1.15E-05),此外BRCA2在PAAD中也表现出显著富集(FDR = 0.012)。PCPG 与多种易患因素相关,包括 RET,SDHB,VHL,NF1,SDHD 和 MAX。

  • 新发现的肿瘤易感基因与肿瘤的关联:5 个胃腺癌(STAD)携带 5 个不同的 PALB2 功能缺失性变异,其中 2 个表现为LOH。3个黑色素瘤(SKCM)携带3个不同的SDHA功能缺失性变异(FDR = 0.035, and very low expression levels)。2 个肺鳞癌(LUSC)和 3 个脑胶质瘤(GBM)患者携带相同的 BUB1B 错意突变(p.Q912H)。这些新发现 的肿瘤易感基因与肿瘤的关联需要更多的证据支持。

  • 在基因突变水平上,在 66 个抑癌基因(TSG)中鉴定了 659 个致病性或可能致病性变体(图 2D),在五个致癌 基因(oncogenes)RET,AR,PTPN11,MET 和 CBL 中发现了 33 个致病性或可能致病性变体。在 11 种癌症 类型中发现了 21 种 RET 变异,有些似乎是癌症特有的,如 KIRP(乳头状肾癌)中观察到了所有 3 个致病性 MET p.H1112R 变异体。对于抑癌基因,我们至少在 18 种肿瘤类型中确定了 57 种 ATM 变体,36 种 BRIP1 和 29 种 PALB2。相反,其他多种肿瘤抑制基因则表现出特定癌症类型的富集,例如 BRCA1 变体、BRCA2 变体主要发生于 OV 和 BRCA,含有致病性 BRCA1 p.C61G 变体的所有四种肿瘤都是乳腺浸润癌。

No.3 二次打击学说

研究者使用先前开发的统计检验检查 LOH 的程度,以更好了解发现的变体的生物学影响

Fig 3A: 在肿瘤中发现了 157 个致病或可能致病胚系突变发生显著性 LOH(FDR <5%),其中 148 个发生于抑癌基因。相比之下,仅 4 个癌基因变异发生显著性 LOH,这可能是由于它们为功能获得性突变和较少需要纯合状态。

  • 图注:通过比较正常样本与肿瘤样本中的变异等位基因频率,识别原癌基因与抑癌基因中 的 LOH。每一个点代表一个变异(红色-显著性 LOH;浅绿色-提示性 LOH;灰色:无 LOH), 对角线代表正常样本与肿瘤样本中的变异等位基因频率一致。

Fig 3B: 使用 GISTIC 描述正常和肿瘤计数数据(read-count data)和肿瘤拷贝数变异(CNV), 验证发现的 LOH 的等位基因特异性。提示性 LOH 变体(FDR <0.15 或肿瘤 VAF> 60%)与显 著 LOH 变体缺失程度相似。因此,由于测序读数不足,其中许多可能是未能达到统计学显 着性的真实事件。这一结果使表现出 LOH 的抑癌基因突变比例增加至 38.5%(n = 254)。

  • 显著 LOH、提示性 LOH 和无 LOH 样本的体细胞拷贝数改变

Fig 3C: 进一步证实,抑癌基因中 154 个 LOH 事件是由于野生型等位基因的缺失所致。

  • 胚系突变的计数显示了癌症易感基因中 LOH 的各种类型,显示大部分 LOH 是由于抑癌基 因中野生型等位基因的缺失导致(橙色)。

补充:

HGSV 基因突变命名规则:仅展示以蛋白质为参考序列的命名

1. 替换:如 p.Trp26Cys,表示第 26 位的 Trp 被 Cys 取代(错义突变);p.Trp26Ter (p.Trp26*),表示第 26 位的 Trp 变为终止密码 (无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);

2. 缺失:如 p.Ala3_Ser5del,表示多肽序列中从第 3 位的 Ala 到第 5 位的 Ser 发生了缺失;

3.插入:如 p.Lys2_Gly3insGlnSerLys,表示在第 2 位的 Lys 和第 3 位的 Gly 之间插入了 GlnSerLys;

4.插入缺失:如 p.Cys28delinsTrpVal,表示第 28 位的 Cys 缺失,同时被 TrpVal 取代;

5.重复:如 p.Ala2[10],表示第 2 位的 Ala 重复了 10 次;

6.移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fs”进行表示;如 p.Arg97ProfsTer23,表示第 97 位的 Arg 是首个发生改变的氨基酸,且 Arg 变为 Pro,同时发生移码突变后,终止密码的位置变为第 23 位;一个典型的 HGVS 命名示例如下:

NC_000023.9:g.32317682G>A 顺序为:参考序列,变异位置,变异类型

SF 3A: 肿瘤内的比较与肿瘤间的比较

  • 在富含遗传易感性基因的癌症类型中观察到较高频率的 LOH。包含 BRCA1 p.Q1777fs, p.D825fs,p.W372 *和 p.E797 *的四个 OV 样品均显示出显著性的 LOH(FDR≤3.43E x -20), BRCA2 p.E1857fs,p.E294 *和 p.Y1762 *在其他三个 OV 样品中也显示出显著 LOH(FDR≤3.27E x -11)。

  • 比较 BRCA1 / 2 在各种癌症中的 LOH 发生率,发现大多数 BRCA1 / 2 变体在 OV 中表现出 LOH,在 BRCA 中表现出较低的分数,在其他癌症中表现出更低的分数(在其他肿瘤类型中有 11 个 LOH 事件)。

  • 此外,其他一些致病性突变与显著性 LOH 相关:致病性 BRIP1 p.S624 *变体具在 1 个 OV 样本中显示了很强的 LOH(FDR = 1.31Ex - 16)。RAD51C p.R193 *在 BRCA 和 OV 中均显示 LOH(分别为 FDR = 3.04Ex - 12 和 5.79Ex - 05),但未在 SKCM 中显示 LOH(FDR = 0.933)。MET p.H1112R 在三个 KIRP 样品中的两个变异等位基因扩增而显示 LOH(FDR = 2.24Ex - 05,6.98Ex - 3,0.26)。在肿瘤中对这些种系变体的阳性选择进一步证实了 LOH(二次打击事件)的临床相关性。

两次命中假说的另一种表现是致病性或可能的致病性胚系突变,加上易感基因另一拷贝中的体细胞突变。

Fig 3d:ATM,BRCA2 和 MSH6 基因产物上的候选双等位事件(致病性或可能致病性变体、体 细胞突变)胚系变体用红色上色,体细胞突变用蓝色上色。在同一病例中观察到的胚系突变 和体细胞突变结合事件结合在一起,用灰线表示。

Fig 3D:在 TCGA 队列中,鉴定出 37 个候选双等位基因事件(Exact Poisson test,p <1E-5,表 S4)。ATM 的六个胚系突变,包括两个 p.T2333fs 和 1 个 p.S2289fs,1 个 p.R23 *,1 个 p.E1267fs 和 1 个起始缺失变体,与 ATM 体细胞突变相结合。携带不同 BRCA2 种系截短突变的三例, 包括 p.T1598fs,p.A2314fs 和 p.Q1037 *,也包含 BRCA2 体细胞突变。

SF 3b:一个COAD 病例携带了一个 MSH6 p.R248fs 种系变异体和一个 p.R248 *体细胞突变,它们在所有测序读数中都是互斥的,从而清楚地支持了两个等位基因的两次打击。

  • 文章中还提及其他肿瘤抑制基因显示出与两次命中假说相符的表达模式——一名35 岁发病的非洲裔美国 KIRP 患者携带病原性 FH p.S187 *种系变异体和体细胞剪接位点 FH 突变,显示低 FH 表达( 表达水平在 KIRP 的 2.07%百分位);一个 BLCA 样品带有 CHEK2 胚系突变 p.W93 *,以及四个不同的 CHEK2 体细胞突变,随 后显示出较低的 CHEK2 表达(表达水平在 BLCA 的 1.7%百分位)。总体而言,这些结果提供证据支持,在 多种肿瘤亚型中,通过 LOH 和易感等位基因双等位基因事件的两次命中假设。

No.4 易感基因携带者的基因表达改变

  • 除了与两次打击事件相关的表达外,研究者还系统地研究携带某个致病或可能致病胚系突变样本的该基因和对应蛋白 质表达。简而言之,计算该变异基因相对于同一类型肿瘤队列的表达百分位数。然后进行了差异表达分析,以寻找在 不用变异体中差异表达的基因。最后确定了 15 个显著(FDR <0.05,线性回归)和 6 个提示性(FDR <0.15)基 因-癌症关联(图 4A,4B,S4 和表 S5)。

(A) 示每种肿瘤类型中,携带基因胚系突变样本与该基因转录本水平的相关性。每个点代表一个基因-癌症关联,其中颜色表示癌症类型,形状表示显著性。

(B) 示致病性基因表达的分布。每个点对应于携带种系变体的病例相对于其相应癌症队列的其他病例的基因表达百分数。与高表达相关的原癌基因变异被写上标记。(红色圆点代表错意突变、蓝色圆点代表截短突变)

-在乳腺癌中,FANCM,ATM,BRCA2,CHEK2 和 BRCA1 突变基因的表达明显降低。在 PCPG 中,RET 致病性突变样本表现出更高的 RET 表达,而 SDHB,NF1 和 SDHD 突变样本对应的基因表达较低。除乳腺癌外,ATM 在 LUAD 和 LGG 中的表达也明显较低(负相关系数)。

(C) 示每种肿瘤类型中,携带基因胚系突变样本与 RPPA 中该蛋白和磷酸化蛋白标志水平的相关性。每个点代表一个基因-癌症关联,其中颜色表示癌症类型,形状表示显著性。

(D) 含致病性突变样本中,该基因对应蛋白和磷酸化蛋白表达水平的分布。每个点对应于携带种系变体的病例相对于其相应癌症队列的其他病例的 基因表达百分数。

  • 使用 RPPA 数据进行了相同的分析,调查了这些影响是否在一定程度上扩展到了蛋白质和磷酸化蛋白上。在5种癌症类型(STAD,PAAD,PRAD,BRCA 和 LGG)中,ATM 携带者与蛋白表达降低显着相关。含 CHEK2 致病性 突变样本在 BRCA 和 BLCA 中也显示 Chk2 标记的蛋白表达较低(FDR = 0.053)。将同样的分析方法运用与 RPPA, 以探索胚系突变的效应是否影响蛋白质和磷酸化水平(图 4C 和 4D 以及表 S5)。值得注意的是,在 5 种癌症类型 (STAD,PAAD,PRAD,BRCA 和 LGG)中,ATM 携带者与蛋白表达降低显着相关。CHEK2 突变样本在 BRCA 和 BLCA(FDR = 0.053)中显示 Chk2 标记的蛋白表达较低。

  • 总体而言,抑癌基因与原癌基因突变表现出不同的基因表达分布。与癌基因相比,抑癌的致病性或可能致病的种系变 异与基因表达的分布相关性较低(两样本 Kolmogorov-Smirnov 检验(检验两个数据的分布是否一致),p = 5.70E-7):47.6%抑癌基因变异与基因表达的下四分位数相关,62.1%原癌基因的基因表达与上四分位数相关,表 明抑癌基因和原癌基因携带致病性或可能致病性变异的转录调控存在差异。

  • 在变异水平上,三个带有 MET p.H1112R 变异的肿瘤在 KIRP 中的 MET 基因表达均位居前 25%。十二个携带易 感 RET 等位基因的病例在其各自的癌症队列中均表现出高 RET 表达,包括 9 个 PCGP 病例和来自其他癌症类型的 3 种 RET 变异(LGG 中的 p.I852M(96%),KIRP 中的 p.D631Y(84%)和 READ 中的 p.R912P(80%))。PTPN11 变体 p.N58S 和 p.T411M 的两种乳腺癌携带者也显示出高表达(> 88%)。肿瘤中与变体相关的癌基因 的高表达,许多未检测到拷贝数扩增,表明癌细胞可能优先上调这些癌基因中的致病等位基因。

No.5 罕见的胚系拷贝数变异

fig 5a-5b:使用 SNP 芯片数据和全外显子组测序(WES)数据,系统地扫描了 10389 个样本中的稀有种系拷贝数变 异(CNV)。在 SNP 阵列识别了 42,208 rare (AF < 0.6% considering 50% overlaps) CNVs(CNV 值:log2 (segment mean)),使用 XHMM 在 WES 数据识别了 53,726 CNVs(CNV 值:标准化的基因测序深度)。

Fig 5c:在两个数据集中,3,584 个重叠的 CNV 通过了罕见的频率过滤。平均而言,每个案例都有 0.38 个重叠缺失 和 0.96 个重叠重复。44%CNV 影响单个基因,而 56%的 CNV 影响多个基因。

  • 鉴于发现大量的 CNV,研究者假设某种基因的致病性 CNV 可能富集与特定癌症中。使用该队列中的 28 个相关癌 基因对(表 S3),发现 18 个事件(使用 WES 和 SNP 阵列共同鉴定了 2 个事件)标记了 11 个肿瘤抑制基因的拷贝 数缺失(图 5D 仅有 17 个事件和 S5)。3 例 BRCA 和 2 例 OV 病例显示 BRCA1 缺失。2 例 KIRC 病例伴有 VHL 缺失(表格中展示),BRCA 和 PRAD 病例各伴有 ATM 缺失,其他受缺失影响的基因包括 FH,MSH6,NF1,PALB2 和 PTEN。

(D)与肿瘤类型相关的易感基因拷贝数变异,展示 CNV 值、对应基因表达和检测技术。星号 (*) 对应 WES 和 SNP 阵列共同鉴定了 2 对拷贝数变异事件

(E) 每一个 CNV 事件在其对应肿瘤队列中的基因表达百分位数。每一个点代表一个 CNV 事件,不同的颜色代表不同的肿瘤类型

  • 进一步验证在特定癌症类型的易感基因中检测这些缺失的转录效应:14 个案例中有 9 个案例显示其表达数据在各自 的癌症队列中均显示了较低的分位数表达(图 E),而其他缺失则没有对应于受影响样品中较低的基因表达(图 S5)。

No.6 证实致病性的独立基因组证据

  • 接着,寻求独立证据来证实 853 种已鉴定的致病性或可能致病性变体的致病性,包括以下内容:(1)在单个突变 水平上,癌症和非癌症病例中某种突变的显著富集分析;(2)将变体与小儿癌症中的致病性胚系等位基因、复发性体 细胞突变共定位,以及(3)与翻译后修饰(PTM)位点共定位。

Fig 6

(A) 相比于 ExAC Non-Finnish European cohort 中的 non-TCGA 样本,致病性胚系突变在 TCGA 样本中显著富集

(B) 致病性或可能致病性突变与常见体细胞突变(N >3,in MC3 dataset))或 1120 儿科肿瘤胚系突变的共定位

fig 6A:研究者比较由 33,370 个非 TCGA 样本(come from ExAC Non-Finnish European cohort,外显子组整合 数据库非芬兰欧洲队列)和 TCGA 样本以进行关联性检验,以确定致病性或可能致病性变体是否富集于肿瘤样本中。发现 30 个表现为提示性关联的独特变体(单尾 Fisher 精确检验,p <0.05,图 6A 和表 S6), 通过多重测试阈值 (FDR <0.05)的前四个相关变体包括 ATM p.E1978 *(p = 3.50E-06),BRCA1 p.Q1777fs(p = 2.97E-05),POT1p.R363 *(p = 3.11E-05)和 PALB2 p.R170fs (p = 5.20E-04)。该结果还提供了致癌变体如 MET p.H1112R(p = 2.00E-03)和 MPL p.F126fs(p = 0.0161)的致病性证据。

-fig 6B(S6): TCGA 队列中,观察到先前在 1,120 例儿科癌症中发现的 28 种致病或可能致病的变体,包括 BRIP1, ERCC3,FANCC,MSH2 和 WRN 中的终止密码子获得变体(stop-gained variants)。此外,观察到 23 个胚系 突变与 MC3 中复发体细胞突变(n≥3)的共定位事件。考虑到独特的变体,其中包括 TP53 中的 8 个胚系错义变体, NF1 的 4 个胚系截短和 RET 的 2 个胚系错义突变。TP53 p.R248W 是高度复发的体细胞突变(n = 94),同时在 小儿横纹肌肉瘤和 LGG 中均作为种系变异体被观察到。在 PCPG 中的 RET p.M918T,也被发现为复发性体细胞突 变(n = 4)。总体而言,我们观察到复发性体细胞突变与 PCGP 变体和 TCGA 中发现的致病性或可能致病性变体之 间存在显着重叠(精确 Poisson 检验,两个试验中的 p <2.2E-16),暗示在小儿和成年癌症的易感性中存在共同的致癌过程,以及共同的种系和体细胞基因组。

  • 为了进一步评估在 TCGA 中发现的 853 种致病性或可能致病性变异是否可以影响更广泛的患者群体,研究者在德克 萨斯大学 MD 安德森癌症中心(MDACC)收集的独立肿瘤队列(主要是转移性)中研究了这些变异的直接重叠,由 19 种肿瘤类型的3026名患者组成。在这些患者中测序了201 个与癌症相关的基因的靶标序列测序(Targeted panel sequencing),涵盖了 99 个具有致病性变体的基因中的 39 个。从八种肿瘤类型(乳腺癌,结直肠癌,黑色素瘤,头 颈癌和多形胶质母细胞瘤)的 MDACC 队列中,重新发现了 TCGA 中发现的 29 种特定变异(0.96% carrier frequency)。相比之下,在 ExAC 队列的 53,105 个非 TCGA 样本中确定了 0.58%相同基因变异体的携带者,从 而验证了这些变异体在癌症中的富集性(Fisher 精确检验,p = 0.015)。

No.7 翻译后修饰位点( Post-Translational Modification (PTM) )的变异

Fig 6c:易感基因蛋白位点特异性相互作用网络,显示了胚系碱基替换突变发生于上游激酶和其他酶位点或其临近位点 -为了研究胚系突变对蛋白质信号传导的潜在功能影响,研究者将 853 个致病或可能致病性突变映射到来自 ActiveDriverDB,hosphoSitePlus 和UniProt Knowledge Base的316,216个实验收集已知的翻译后修饰(PTM) 位点。总体而言,发现 65 个氨基酸取代(缺失)与 34 个独特的 PTM 直接重叠或相邻(表 S6),1000 个基因组 数据集中观察到的那些变异作为对照的富集分析,显示某些 PTM 位点显着富集胚系突变(排列检验,p <2x10- 11)。致病性 PTM 相关取代的前六个基因包括 VHL(n = 10),CHEK2(n = 9),BUB1B(n = 9),TP53(n = 8) 和 RET(n = 6)。

  • 为了说明胚系突变在信号网络上的可能机制,研究者系统地将 PTM 相关的替换映射到已知的位点特异性酶-底物相 互作用中(STAR 方法,图 6C 和 S6)。9/18 基因中超过 60%(21/34)的独特取代发生在上游激酶和其他类型 酶结合的蛋白质位点中。例如,TP53 中的五个替代突变可能会影响激酶的结合位点,例如 Aurora 激酶 A(AURKA) 和 CHEK2(检查点激酶 2),以及其他已知会激活或抑制 TP53 的信号传导酶,例如 MDM2 和 EP300。5 个 VHL 发生于 NEK1 激酶的结合位点。CHEK2 p.S428F 可能影响 CHEK2 激酶的自身磷酸化和激活(活性)。RET p.V804M 和 p.R921P 可能会影响需要 RET 激酶活性的自身磷酸化位点。BRCA1 p.R1699W 通过破坏 BRCT 重复序列显着减弱了与 BACH1 肽的结合。总体而言,这些结果表明,一些致病性种系易感性突变可能会通过破坏和重新 连接复杂的蛋白质信号网络来表现其功能。

No.8 Functional Assessment of Germline RET Alleles

  • 使用 HotSpot3D,在 3D 蛋白结构上对致病性或可能致病性胚系突变和体细胞突变进行了聚类分析。在 35 个基因中鉴定了 56 个包含体细胞突变和 21 个致病种系变异胚系突变的杂种簇(表 S6)。例如,我们 观察到共定位的 VHL 胚系突变 p.C162F,p.L188V 和 p.R167Q / W 与体细胞突变共聚簇,簇 280。
  • 在 RET 的激酶结构域中观察到了杂交簇:一个簇包含共定位的胚系突变 p.R912P / p.M918T 和其他 10 个 体细胞突变(p.N763K 未展示在图 B 中);而另一个邻近簇包括 p.I852M 和 5 个体细胞突变。此外,胚系 VUS 与 RET 和 MET 的激酶域中的体细胞突变共聚(图 7B),可能为其致病性提供了证据。

(A) TCGA 队列中识别的致病性或可能致病性突变、VUS 突变

Cadherin:钙黏素结构域

PTKc_RET:酪氨酸蛋白激酶的催化结构域

Pkinase_Tyr:酪氨酸蛋白激酶结构域

(B) 3D 蛋白结构图展示 RET 和 MET 激酶结构域中体细胞突变与胚系突变的共聚类。胚系突变(红色),体细胞突变(红色),体细胞突变和胚 系突变共同影响(浅粉色)的氨基酸残基

(C) RET 胚系等位基因信号功能的实验评估。顶部:通过测量 pMAPK / RET / GAPDH 比率评估不依赖配体的 RET 活性,以野生型中的比率标准化(即野生型比率为 1)。底部:通过测量 pMAPK/GAPDH 比率评估 RET 胚系等位基因活性,以野生型中的比率标准化。

一个 MET 激酶结构域簇以残基 p.H1112 为中心,致病性种系变体 p.H1112R 和体细胞突变 p.H1112Y 发生在此中心。该簇包含其他体细胞突变,包括 p.T1114S 和致病性 p.V1110I 和种系 VUS p.H1097R。

一个 RET 激酶结构域簇,该簇包含共定位的种系 VUS p.R844L / Q 和 p.R846V 以及共聚类的 VUS p.R817C 和 p.E843K(图 7B),其中一些显示功能相关的证据。例如,RET p.E843K 与癌症人群中的高表达(第 97 个百 分位数)和潜在富集(p = 1.7E- 4)(表 S2)。

  • 由于 RET 中的变体占优势,尤其是在激酶结构域内和周围,我们通过对 RET 中的 12 种独特种系变体进行 实验验证来评估其功能,其中包括 3 个致病变体和 9 个 VUS。此外,我们选择了组成型激活阳性对照 p.C618F 和激酶失效的阴性对照 p.K758M。在不存在配体 GDNF 的情况下,通过蛋白质印迹监测下游 pMAPK 水平来 评估 RET 变体的活性。

首先通过 pMAPK / RET / GAPDH 之比测量RET 活性(图 7C), 组成性激活 p.C618F 显示配体非依赖的激活, 而激酶失效的 p.K758M 显示 pMAPK 的背景水平。p.M918T 也表现出更高的活性,与严重的疾病表型相一致,而在本研究中发现的所有其他胚系 VUS 未显示出显著的活性变化。

  • 原癌基因的激活突变往往与基因表达上调相关,如队列中的 RET MEN2 等位基因和 MET p.H1112R(图 4B)。因此,我们通过测量不受动态 RET 表达控制的 pMAPK / GAPDH 以评估 RET 活性来分析结果(图 7C)。结果 表明,p.R912P 可能显示非配体依赖性激活(未经调整的 p = 0.0019)。多个其他变体也显示出活性的轻 微上调,值得进一步研究(图 7D)。

No.9 Nomination of VUSs Using Combined Evidences

SF 2D: 多种证据筛选具有潜在功能的 VUS,包括病例对照频率、LOH,表达相关性、与复发 突变和 PTM 残基的共定位。

整合方法可进一步筛选 VUS,找出其潜在的功能。在 540 个被分类为 VUS 中(图 1),满足涉及样本控制 频率、LOH、表达效应,以及与复发突变和 PTM 的共定位(图 S2 和表 S2)中的至少两种证据提示 47 个易 感性变体。其中包括肿瘤富集(p = 1E 4)六次 ERCC2 p.F544fs,三个 FANCC 和三个 FANCL 截短突变,LOH 相关的一个 POLH 突变和一个 FANCM 突变,其携带者各自在各自队列中的表达水平均均位于下 25%百分位数。这些功能评估方法可能会为将来的变异分类指南提供参考。

相关文章

网友评论

    本文标题:多组学文献精读06 | 在10389 个成人肿瘤中致病性胚系突变

    本文链接:https://www.haomeiwen.com/subject/rtdwuhtx.html