今天跟大家分享的是六月份发表在Nature Genetics杂志(IF:25.455)上的一篇文章Genome-wide association study identifies 32 novel breast cancer susceptibility loci from overall and subtype-specific analyses,本工作进行了一项全基因组关联研究,使用标准的和新的方法,根据雌激素受体、孕激素受体和人类表皮生长因子受体2的状态和肿瘤级别来解释潜在的肿瘤异质性,并识别32个新的易感性基因座。
Genome-wide association study identifies 32 novel breast cancer susceptibility loci from overall and subtype-specific analyses
从总体和亚型特异性分析中通过全基因组关联研究识别了32个新的乳腺癌易感性基因座
基因座(locus,loci):基因在染色体上所占的位置。在分子水平上,是有遗传效应的DNA序列。形象地说,一对染色体可想象为两条平行线,染色体上一个给定的位置,好比两平行线上相对应位置的一点或一段,叫做基因座。一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。基因座与位点(site)不同,后者是一个顺反子内部的突变位置,可以小到一个核苷酸对。基因座是染色体上的固定部位,在相同基因座上编码相同的DNA被称为等位基因。一些基因座上的等位基因具有明显的个体差异,因此它们就像指纹一样可以确定一个人的身份。
全基因组关联研究(Genome-Wide Association Studies,GWAS)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。
一、摘要
乳腺癌(BRCA)易感性变异在肿瘤亚型中经常表现出异质性。为了识别新的基因座,本工作进行了一项全基因组关联研究,包括133,384例乳腺癌病例和113,789例对照,以及18,908名欧洲血统的BRCA1突变携带者(9,414名乳腺癌患者),使用标准的和新的方法,根据雌激素受体、孕激素受体和人类表皮生长因子受体2的状态和肿瘤级别来解释潜在的肿瘤异质性。本工作识别32个新的易感性基因座,其中15个显示与至少一种肿瘤特征相关。5个基因座在luminal亚型和non-luminal亚型之间呈相反方向的相关性。计算机模拟分析显示,这5个基因座含有细胞特异性增强剂,不同于正常的luminal和basal乳腺细胞。5个intrinsic-like亚型之间的遗传相关性范围从0.35到0.80。通过全基因组芯片遗传率解释所有已知易感位点,luminal A-like型占54.2%,三阴性(triple-negative)型占37.6%。多基因风险评分(polygenic risk scores,是一个用来评估个体患某种疾病风险的方法,它是通过GWAS统计数据的基因型效应值来计算的)的优势比(OR),包括330个变异,luminal A-like和triple-negative的多基因性风险评分的最高1%分位数与中分位数的优势比(包括330个变异)分别为5.63和3.02。这些发现提高了对乳腺癌亚型遗传易感性的认识,并将为亚型特异性多基因风险评分的制定提供信息。
二、背景
根据乳腺癌协会联盟(BCAC)迄今为止最大的全基因组关联研究(GWAS),已经鉴定出170多个独立的乳腺癌易感性变异。许多这些变异显示不同的肿瘤亚型的相关性,特别是雌激素受体阳性与雌激素受体阴性或三阴性疾病。然而,以往的GWASs并没有同时考虑多个相关肿瘤标志物,如雌激素受体、孕激素受体和人表皮生长因子受体2(HER2)之间的高相关性和分级,以确定病因异质性的具体来源。本工作使用标准分析和一个新的两级多元回归(two-stage polytomous regression)方法对乳腺癌GWAS进行了研究,该方法有效地表征了病因异质性,同时考虑了肿瘤标记物相关性和缺失数据。
三、数据
1.总体乳腺癌样本:来自20个国家的欧洲血统女性的82个BCAC研究的样本。基因分型数据来自两个Illumina全基因组定制阵列:iCOGS和OncoArray(Supplementary Table 1)。分析的总样本量(包括iCOGS、OncoArray和其他GWAS数据)共133,384例样本和113789控制。
2.GWAS分析数据:two-stage logistic回归分析使用106,278侵袭样本和91,477控制。
3.CIMBA数据:18岁以上有致病性BRCA1变异,有15566名BRCA1突变携带者的数据,其中7784人患有乳腺癌(Supplementary Table 3)。还通过 CIMBA获取54项研究中的3342名BRCA1突变携带者(1630名乳腺癌患者)的iCOGS基因型数据。
四、方法
1. 为了识别BCAC整体乳腺癌(侵袭性、原位或未知侵袭性)的变异,使用标准的logistic回归估计优势比(ORs)和95%置信区间,并根据国家和主成分进行调整。分别对iCOGS和OncoArray数据进行评估,并使用固定效应(fixed-effects,试验设计的基本概念之一。试验中,若因素的水平选取已定好,该因素的水平效应作为固定参数,称此为固定效应)meta-analysis将结果与其他11个GWASs的结果结合。
2. 为了识别显示异质性的乳腺癌易感性变异的证据,使用了一种基于两级多元回归的新评分测试,在雌激素受体、孕激素受体、HER2和/或grade(肿瘤分级)存在潜在异质性的情况下,该模型允许灵活而简洁地建立关联模型。该模型通过实现一个有效的期望最大化算法来处理丢失的肿瘤特征数据。这些分析仅限于BCAC对照和侵入性病例。
3. 本工作拟合一个另外的两级模型来估计变异型和由雌激素受体、孕激素受体、HER2和grade联合定义的intrinsic-like亚型之间的病例-对照ORs和95% 置信区间。(1)luminal A-like (2)luminal B/HER2-negative-like (3)luminal B-like (4)HER2-enriched-like (5)triple-negative或basal-like。分别分析了iCOGS和OncoArray数据,调整了主成分和年龄,并使用固定效应模型对结果进行meta分析。使用leave-one-out敏感性分析来评估国家的影响。
4. 在易发展为三阴性疾病的BRCA1突变携带者中,在回顾性队列分析框架内估计了每个等位基因的危险比。假设BCAC三阴性病例的估计ORs和CIMBA BRCA1携带者的估计风险比近似相同的潜在相对风险,并且使用固定效应meta分析来合并这些结果。在所有新的变异中,使用两级的多元模型来测试不同亚型之间的关联异质性,全局性的和肿瘤特异性的。
5.定义候选因果变异(Candidate causal variants,CCVs):将可靠的ccv集定义为每一个新区域中位于lead变异±500kb范围内的变异,且P值在lead变异大小的100倍范围内。
五、结果
总的来说,识别了32个新的独立易感性基因座,其变异P<5.0×10−8(图1):有22个变异使用标准logistic回归识别,16个变异用两级多元模型(其中8个未被标准logistic回归检测到)识别,以及3个变量在CIMBA/BCAC三阴性meta分析中识别(rs78378222也被BCAC的两级多元模型检测到)。
图1.所有独立全基因组显著性乳腺癌易感性变异的总体、亚型、BCAC三阴性和CIMBA BRCA1 携带者meta分析
经整体异质性检验,32个变异中有15个有异质性(图2)。雌激素受体(7种变异)和grade(7种变异)最常导致观察到的异质性,其次是HER2(4种变异)和孕激素受体(2种变异)。
图2.32个乳腺癌易感性基因座的marker-specific异质性检验的热图和聚类P值
五种变异与luminal 亚型和non-luminal亚型呈相反方向的相关性(图3)。四种变异与luminal A-like和三阴性亚型相反方向相关。rs78378222与雌激素受体和HER2相关;rs206435与雌激素受体和grade相关;rs141526427和rs6065254 仅与雌激素受体相关。rs7924772在HER2阴性和HER2阳性亚型之间显示了相反的病例-对照关联,与这些发现一致,rs7924772只与HER2相关(图3)。
图3.在不同亚型之间具有相反方向关联的易感性变异
接下来为每个新位点定义了候选因果变异(CCVs),并研究了原发乳腺细胞中CCVs与先前注释的增强子的关系。结合H3K4me1和H3K27ac组蛋白修饰染色质免疫沉淀测序(ChIP-seq)信号,basal细胞、luminal祖细胞和成熟luminal细胞中假定的增强子被鉴定为off、primed和active。将开关增强子定义为在细胞类型之间表现出不同特征的那些,在五个亚型间反向关联的基因座中,每个基因座至少有一个CCV与一个开关增强子重叠(图4)。这些结果表明,某些变异可能以细胞类型特异性的方式调节增强子活性,从而差异地影响肿瘤亚型的风险。
图4.在原发性乳腺癌的亚型之间有相反的关联方向的五个基因座中,与增强子状态重叠的CCVs
使用INQUISIT将CCVs与来自公共数据库的功能注释数据交叠,以确定潜在靶点基因。对32个独立信号中的26个预测了179个独立的靶基因。有报道称rs78378222与血液和脂肪组织中的TP53信使RNA水平有关,但在本工作中没有在乳腺组织中重复。然而,该研究发现rs78378222与乳腺basal上皮细胞中一个细胞类型特异的调控元件重叠,这意味着增强子功能是另一种潜在的TP53转录控制机制。高置信度预测了14个区域的23个靶基因,其中13个区域的22个靶基因被预测为远端调控。INQUISIT之前预测了4个靶基因(即POLR3C、RNF115、SOX4和TBX3(TBX3是已知的体细胞乳腺癌驱动基因),以及转录全关联涉及的基因(LINC00886和YBEY17)。
使用连锁不平衡评分回归来研究亚型之间的遗传相关性,并比较luminal A-like和三阴性亚型之间基因组特征的富集情况。所有亚型均中度至高度相关,luminal A-like和三阴性相关系数为0.46 。BRCA1携带者与BCAC三阴性乳腺癌之间的相关性为0.83,表明这些亚型之间的遗传基础高度相似(图5)。
图5.通过连锁不平衡评分回归分析5个intrinsic-like乳腺癌亚型与BRCA1突变乳腺癌的遗传相关性
32个新变异体加上178个早先已确定的变异体在全基因组芯片遗传率中, luminal A-like、三阴性和BRCA1携带者所占的比例分别为54.2%、37.6%和26.9%(表1)。这210个变异解释了约18.3%的双重家族性相对风险的浸润性乳腺癌,而OncoArray上所有可靠的可归因变异解释了37.1%。luminal A-like和三阴性亚型的多基因风险评分(polygenic risk scores ,PRSs)之间的每个标准差ORs为1.83和1.65,其中包括313个已发表的变异和17个独立于313个变异的新变异,相应的ROC曲线下面积分别为66.09和63.58。
表1.侵入性乳腺癌的遗传变异可由确定的易感性变异和所有可靠的全基因组可归因变异来解释
这些分析显示了将标准GWAS方法与考虑潜在肿瘤异质性的方法相结合的好处。有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)此外,这些方法和结果可能有助于阐明导致特定分子亚型的机制,并为亚型提供精确的风险估计,为特定于亚型的PRSs的开发提供信息。然而,为了扩大本工作发现的普遍性,这些分析应该在多重祖先群体(multi-ancestry)中重复和扩展。
总结:本工作进行了一项全基因组关联研究,使用标准的和新的方法,根据雌激素受体、孕激素受体和人类表皮生长因子受体2的状态和肿瘤级别来解释潜在的肿瘤异质性,识别32个新的易感性基因座,并分析这些基因座的亚型异质性。通过定义候选因果变异,研究了原发乳腺细胞中CCVs与先前注释的增强子的关系,发现某些变异可能以细胞类型特异性的方式调节增强子活性,从而影响肿瘤亚型的风险。确定CCVs潜在靶点基因,已分析调控机制。然后使用连锁不平衡评分回归来研究亚型之间的遗传相关性,发现亚型之间的遗传基础高度相似。
网友评论