Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers
全基因组DNA甲基化分析和潜在的泛癌症和肿瘤特异性生物标志物的鉴定
发表期刊:Mol Oncol
发表日期:2022 Jan 2
DOI: 10.1002/1878-0261.13176
期刊相关信息一、背景
癌症是全世界第二大死因,乳腺癌、前列腺癌、肺癌、结肠直肠癌和胃癌是最常见的病因。异常的DNA甲基化被认为是癌症发展的一个标志,异常的 DNA 甲基化被认为是癌症发展的标志,并且已观察到整体低甲基化和位点特异性高甲基化。
鉴于DNA甲基化在癌症中起着关键作用,一些研究概述了使用甲基化的DNA位点作为癌症检测标记,主要集中在基因启动子标记或单个CpG标记上。尽管已经确定了几个这样的甲基化生物标志物,但其中只有少数被用于临床。这些检测方法仍然受到不同癌症阶段性能不一致的困扰,而且在检测残余疾病方面存在不足。
二、材料与方法
1.数据来源
1)DNA甲基化数据集是从TCGA下载的,选择了肿瘤与正常样本比例为10%或至少有10个肿瘤与正常样本对的数据集,总共有14种不同的肿瘤类型的数据集被用于分析:包括6502个样本:5783个病例和719个对照
2)为了进行独立的外部验证,从GEO数据库下载了10个额外的Illumina450K甲基化数据集,汇总成一个更大的数据集,包括8种不同类型的332个正常样本和1263个肿瘤样本,以代表泛癌症验证集。
2.实验流程
1)甲基化数据的预处理
2)差异性甲基化分析:差异甲基化分析主要使用champ软件包,排除了25%以上探针数据缺失的样本,过滤了其余有缺失值的探针,β值小于0的设为0,大于1的设为1;差异甲基化区域(DMRs)和差异甲基化区块(DMBs)是基因组的扩展区域,在两组之间表现出可量化的甲基化差异,使用ChAMP中Bumphunter算法的实施扩展来识别,最小尺寸分别为50和500bp
3)泛癌症生物标志物鉴定:在对单个癌症数据集进行全基因组预筛选以确定肿瘤和正常样本之间甲基化差异最大的位点后,选择了所有14种类型共同的、对数|ΔβFC|≥2的DMPs用于后续分类器模型的建立;拟合二元逻辑回归模型来预测组织类型
4)特定类型的生物标志物鉴定:采用了1对1的方法来识别14种肿瘤类型中的1种和其他13种合并的差异甲基化探针,使用的是包含14种肿瘤类型的5783个病例的集合数据集;使用多类矩阵交叉的方法(类似于维恩图)来识别每个肿瘤类型特有的DMPs,这些DMPs将作为模型预测因子,然后进行筛选
三、实验结果
01 - 不同肿瘤类型的差异DNA甲基化的模式
大多数肿瘤类型在正常和癌症样本中都表现出总体上的双峰β值密度分布,低端密度略高。食道癌显示两组的β值都在中间范围内巩固,而胰腺癌几乎只在β值的低端范围内巩固(图1A)。为了在不同的肿瘤之间进行可扩展的比较,DMP计数报告为基于每个类别中分析的 CpGs 探针总数的标准化比例。差异甲基化在不同的肿瘤类型中明显不同;平均而言,在不同的肿瘤类型中观察到55%的差异甲基化,其中30%的低甲基化和25%的高甲基化(图1B)。食道癌、胰腺癌和甲状腺癌的差异甲基化比例最低,约为22%,而肾癌、肺癌和前列腺癌的比例最高,为70%或更高。肝癌、肺鳞癌和肾癌的低甲基化程度最高,约为40-48%,而甲状腺癌、食道癌和胰腺癌的低甲基化程度最小,约为10-15%。相反,乳腺癌、肺鳞癌和肾癌的高甲基化比例最高,为35-39%,而膀胱癌、食道癌和胰腺癌的高甲基化比例最低,为9-15%。有趣的是,在乳腺癌中,差异甲基化在高甲基化和低甲基化之间几乎平均分配(图1B)。在DMPs的数量和数据集的样本数量之间没有观察到明显的相关性。整个肿瘤类型的DMPs平均被映射到17000个独特的基因上,每个基因有四个DMPs是最常见的,每个基因平均有八个DMPs。平均来说,35%的DMPs位于基因体,24%位于IGR,13%位于TSS1500,10%位于TSS200,9%位于5′UTR,4%位于3′UTR和第一外显子(图1C)。关于DMP与CpG岛的关系分布,最大比例的DMP映射到开放海区,平均37%,其次是CpG岛,平均31%。北部和南部海岸分别平均包含13%和10%的DMP,而北部和南部大陆架包含的DMP平均比例最低,分别为5%和4%(图1D)。
图1 不同癌症类型的差异化甲基化分析结果概述在不同的肿瘤类型中还发现了总共15260个DMRs,每个类型平均有1090个DMRs。DMRs是基因组的扩展片段(约10 bp - kb),在不同的生物样本中显示出DNA甲基化水平的定量改变。与DMPs类似,肾癌的DMRs最多,为2505个,而食道癌最少,为349个。DMRs的平均大小为750bp,平均包含12个CpG探针。每条染色体平均有726个DMRs,其中6号染色体最多,平均有1962个,21号染色体最少,平均有81个。DMRs在各肿瘤类型中的基因组分布总体上相似。6号染色体上的一段高DMR密度似乎存在于所有的肿瘤类型中,在3、11、17和19号染色体上可以看到类似的甲基化区域。令人注意的是,在任何一种癌症类型的9号染色体上都没有发现DMRs(图3)。在不同的肿瘤中共发现了29481个DMBs。
图3 勾勒出不同癌症类型甲基化区域的基因组分布的密度图另一方面,DMBs是大规模的基因组区域(10 Kb-1 Mb),包含数百个基因间(开放海区)差异甲基化的CpGs。每个肿瘤平均有1785个DMBs被鉴定出来,在肾脏肾乳头瘤中观察到最多的是2543个DMBs,在肝癌中观察到最少的是1020个DMBs。由于比DMRs大,且含有更多的CpG探针,所鉴定的DMBs长度为750Kb,平均含有200个探针。每条染色体平均可以映射出1135个DMBs,其中2号染色体和18号染色体的DMBs数量分别最高和最低。从DMBs的基因组分布来看,它们似乎在各种癌症中表现出普遍的特征,这可以在1、8、9、18、19、21和22号染色体上清楚地观察到(图S3)。
图S3 密度图概述了不同癌症类型的差异甲基化区块(DMBs)的基因组分布02 - 甲基化作为泛癌检测生物标志物
经过过滤步骤(图2),作者确定了28个泛癌DMPs,与所有癌症类型的正常人相比,这些DMPs在肿瘤样本中被高甲基化。其中12个可以被映射到12个不同的基因上,20个DMPs位于CpG岛区域,3个位于海岸区域,3个位于开放区域,2个位于架子区域。
图2 概述生物标志物识别方法的示意图然后用二元逻辑回归来测试28个探针的组合,这些组合在对样本进行泛癌分类时效果最好。逻辑回归分类器模型是用1-4个探针的组合建立的,并在GEO数据集中进行了外部验证。总共测试了24157个预测器组合,其中20475个由4个探针组成(图S4)。仅使用单个探针的平均曲线下面积(AUC)为0.84(图S4A),使用四个探针组合的平均曲线下面积上升到0.92(图S4D),1个和4个预测器组合的平均误分类误差分别为0.11和0.09。这些模型在验证数据集中表现良好,单个预测因子的平均外部AUC为0.89,四个预测因子为0.95(图S4A,D)。最终的模型是根据最高的AUC和最低的错误分类误差以及这些测量中最小的标准偏差选择的。
图S4 所有测试的预测器组合的泛癌模型指标概览最终的模型包括四个探针,在发现集达到交叉验证的AUC为0.95,在验证集达到AUC为0.96。误分类错误率为0.06,而敏感性和特异性为90%,总体准确性为92%。在验证数据集中也取得了相当的性能(图4)。无法测出临床癌症阶段或年龄对组织类型预测的明显影响。阶段性的最终分层模型在所有四个阶段中产生了某种程度上的统一预测结果,AUC高于0.90。正如预期的那样,I期表现出最低的指标,敏感性和特异性分别为85%和91%,而最准确的预测结果出现在IV期,敏感性和特异性分别为97%和90%(图4)。
图4 最终的泛癌模型、验证数据集和阶段分层的ROC曲线03 - 甲基化作为特定类型的检测生物标志物
将类似的过滤步骤应用于单对单的差异性甲基化分析后,结直肠癌记录的特定类型DMP数量最多,为5181个,其次是甲状腺癌,为4666个。食道癌和肺鳞癌的类型特异性DMP数量最少,分别为13和12个DMP(图S2)s。在对相关预测因子进行特征选择后,还剩下586个探针,大约是初始特征集的3%。随后,冗余过滤聚类步骤产生了20个CpG预测因子,从10个产生的特征聚类中各选2个。由这20个预测因子中的6个组成的组合被用来建立分类器模型;这是基于初步数据显示最高的平均AUC,预测因子的数量最少,测试的组合总数最实用。使用PLSDA算法,利用14种类型的肿瘤集合数据集,共测试了38 760个组合。对14种肿瘤类型进行分类的平均交叉验证AUC为0.85。大多数测试组合在分类癌症类型方面表现良好,甲状腺、尿道、前列腺、肾脏、结肠直肠、肝脏和头颈部癌症的局部AUC平均值高于0.90。胰腺癌、肺癌、食道癌、乳腺癌和膀胱癌的平均AUC较低,但其局部AUC最大值都在0.80以上。事实上,只有食道癌的最大检测AUC低于0.90,为0.87,是研究的14种类型中最难辨别的。肝癌、前列腺癌、子宫癌和甲状腺癌的鉴别能力最高,AUC为0.99,而结直肠癌的AUC为0.98。综合的最终模型包括20个独特的CpG探针,在分类肿瘤类型方面表现非常好,与6个探针组合的单个模型相比,指标有明显的提高,特别是特异性(图5)。该模型在现有癌症类型的验证集中表现同样出色(图6)。甲状腺、子宫、前列腺、肝脏和结直肠肿瘤可以以近乎完美的灵敏度被识别。在研究的14种癌症类型中,有12种可以以高于90%的敏感度和特异度进行鉴别。只有食道癌和肺鳞状细胞癌的特异性分别为80%和87%(图5)。
图5 最终综合类型特定的偏最小二乘法-判别分析模型的接收操作特征曲线 图6 在GEO验证数据集中,最终整合的特定类型偏最小二乘法判别模型的接收操作特征曲线四、结论
研究使用癌症基因组图谱研究了14种不同癌症类型的全基因组甲基化谱,鉴定并验证了四种候选泛癌甲基化CpG生物标志物和20种候选癌症类型特异性标志物的组合。这突出了甲基组作为生物标志物的丰富来源,可用于新的微创癌症检测测定。
网友评论