Deciphering a TB-related DNA methylation biomarker and constructing a TB diagnostic classifier
破译结核病相关的DNA甲基化生物标志物并构建结核病诊断分类器
发表期刊:Mol Ther Nucleic Acids
发表日期:2021 Nov 19
影响因子:8.886
DOI: 10.1016/j.omtn.2021.11.014
期刊相关信息一、背景
结核分枝杆菌(MTB)的复杂性质在很大程度上导致了数千年来世界头号传染病杀手--结核病(TB)对人类的持续影响。在全球范围内,2019年大约有1000万人罹患结核病,140万人死于结核病。幸运的是,结核病是一种可预防和可治愈的疾病,阻止结核病流行的关键是早期诊断。病原学检测(Xpert MTB/RIF、培养等)的检测能力主要取决于样本质量。除了现有检测方法的性能有限外,结核病的某些特征也增加了其临床诊断的难度。结核病是一种传染性疾病,其发病机制涉及宿主、MTB和环境之间的动态相互作用。
DNA甲基化是研究最广泛的表观遗传修饰,指的是通过DNA甲基转移酶将一个甲基转移到胞嘧啶碱基的碳-5位置,形成5-甲基胞嘧啶。由于DNA甲基化的优势包括在生物过程中的关键作用、疾病/组织/细胞类型的特异性模式以及固有的稳定性,因此已经为许多疾病绘制了特定的DNA甲基化图谱,如乳腺癌、脂肪症等。
二、材料与方法
1.数据来源
1)发现集:在NCBI数据库(GEO)和欧洲生物信息学研究所ArrayExpress中搜索(GSE118469、GSE104287、GSE72338、GSE107917)
2)验证队列:共招募了2019年1月至2020年10月期间在四川大学华西医院住院的62名中国参与者
2.实验流程
1)DMP和DMR分析:评估每个样品中每个CpG位点的甲基化水平,使用Limma软件包来评估DMPs;采用DMRcate软件包来识别甲基化区域并进行差异甲基化分析,基于363,416个探针,假发现率<0.05的甲基化区域被认为是有意义的区域,差异分析也是在不同种族和样本类型中进行,DMR注释是通过在线工具wANNOVAR进行
2)功能分析:对DMR相关基因进行了GO富集分析和KEGG通路富集分析;通过在线工具STRING构建了一个PPI网络,以确定DMR相关基因中的枢纽基因
3)诊断分类器的开发:Logistic回归和弹性网回归;SVM、KNN、随机树和XGBoost也被用来构建分类器,这些建模方法的最佳超参数通过网格搜索或交叉验证来选择
4)区域特异性多重测序和数据分析:为了验证阵列分析中发现的DMRs,测试分类器的性能和概括性,进行了区域特异性多重测序;用Limma软件包评估结核病人和HCs之间的差异
三、实验结果
01 - 结核病患者和健康对照的不同DNA甲基化模式
总共有4个数据集,包括67名结核病患者和45名健康对照(HCs),符合纳入标准。在过滤和调整批次效应后,共有363416个探针被保留用于分析。总共有89个差异甲基化探针(DMPs)在结核病患者和健康对照组之间被发现(图2A)。89个DMPs在基因组特征上的映射显示,大多数探针针对内含子特征,其次是外显子和基因间特征(图2C)。在89个DMPs中,与HCs相比,结核病人中68.5%的位点是高甲基化的,31.5%是低甲基化的(图2E)。
作者将重点转移到对基因表达有最强预期调节能力的甲基化区域,确定了涵盖310个CpG位点的27个差异甲基化区域(DMRs)(图2B)(三个区域被排除,因为每个区域只有一个CpG位点)。在这24个DMRs中,基因组注释显示42%位于外显子区域,25%位于5′UTRs(图2D)。DMRs的位置表现出染色体的偏向性,近一半的DMRs分布在6号染色体上。根据β值的平均倍数变化(FC),与HCs相比,结核病人在22个区域有明显的高甲基化,在2个区域有低甲基化(图2F)。
图2 结核病患者和健康对照组之间不同的甲基化探针和不同的甲基化区域02 - DMRs的功能富集
对25个DMR相关基因进行了GO富集分析和KEGG途径富集分析。GO分析表明,DMR相关基因对许多免疫相关的生物功能有贡献,如免疫细胞的激活和调节,细胞对IFN-γ的反应,以及细胞毒性(图S3A)。KEGG分析表明,这25个基因主要参与了抗原处理和表达以及病原体感染相关途径(巨细胞病毒、乳头瘤病毒等)(图S3B)。构建了一个蛋白质-蛋白质相互作用(PPI)网络,以可视化这25个基因编码的蛋白质之间的相互作用。在构建的网络中,HLA-F、ZBTB22、SIN3A和GABBR1被认为是中心基因(图S3C)。
图S3 不同甲基化区域相关基因的GO、KEGG和PPI分析03 - 在验证的DMRs基础上构建诊断分类器
通过二元单变量和多变量逻辑回归,最终选择了三个DMRs(chr11: 65315205-65315625, chr3: 195635643-195636243, and chr6:29691631-29692475)作为分类器(图3A和3B)。对于这三个DMRs,逻辑回归分类器的灵敏度为79.1%,特异性为84.4%,曲线下面积(AUC)为0.888(图3C和3D)。无论选择何种风险阈值,该分类器也显示出性能的净收益(图3E)。随机树分类器的AUC最高,为0.999,其次是极限梯度提升(XGBoost)和k-近邻(KNN)分类器,支持向量机(SVM)分类器的AUC最低。
图3 包括的变量、nomogram和3-DMR逻辑回归分类器的性能为了避免过度拟合,在弹性网回归的变量选择过程中,使用了平均平方误差在最小值1个标准误差内的最大λ(λ=0.068)(图4A)。除上述三个DMRs外,还有六个DMRs(chr15:75743753-75744225, chr6: 30458519-30458601, chr6: 33244976-33246390, chr6:31627090-31627313, chr6: 33283789-33284168, and chr6: 31937968-31938372) (图4B)是通过弹性网回归选择的。对于这九个DMRs,弹性网回归分类器的灵敏度达到82.1%,特异性达到86.7%,AUC达到0.918(图4C)。随机树分类器的AUC最高,其次是XGBoost和KNN分类器。
图4 9-DMR弹性网回归分类器的最佳超参数选择、包含的变量和接受者操作特征04 - 通过区域特异性多重测序对DMRs进行验证
上述九个DMRs的甲基化水平被进一步测试。在一个前瞻性的临床队列中,共收集了来自31名结核病患者和31名HCs的62份样本。发现Chr3:195635643-195636243和Chr6:29691631-29692475区域有不同程度的甲基化(图5A),然而在其他七个区域没有观察到有意义的发现。鉴于数据产生的方式不同(阵列和测序),基于微阵列数据集的分类器的截止值可能不适合测序数据;因此,使用了由测序数据产生的新阈值。在所有由不同DMR和建模方法构建的分类器中,3-DMR逻辑回归分类器的AUC最高。这个分类器的特异性增加到90.3%,而敏感性略有下降,但仍达到64.5%(图5B)。
图5 一个独立队列中三个不同甲基化区域的甲基化水平和3-DMR逻辑回归分类器的性能为了促进这些发现在临床实践中的应用,在https://mengyuan.shinyapps.io/TB_DNAmethylation/,设计了一个基于3-DMRs逻辑回归的在线分类器。为简单起见,在这个在线工具中,采用了区域相关基因来代表相应的DMRs。LTBP3、TNK2-AS1和HLA-F分别代表Chr11: 65315205-65315625、Chr3: 195635643-195636243和Chr6:29691631-29692475区域。
05 - 在不同情况下对3-DMR逻辑回归分类器的进一步评估
考虑到结核病传播的严重后果,35名结核病患者和32名注射卡介苗(BCG)的参与者被合并到同一组,以减少漏诊的可能性。然而,需要对结核病人和卡介苗接受者进行鉴别诊断。尽管3-DMR逻辑回归分类器表现出适度的AUC,但它能将结核病人与卡介苗参与者区分开来,特异性为82.9%。
作者还对3-DMR逻辑回归分类器的鉴别诊断性能进行了评估。3-DMR逻辑回归分类器显示出将结核病与疟疾和系统性炎症反应综合征进行区分的强大能力。使用该分类器区分败血症患者(GEO:GSE138074)和结核病患者时,敏感性、特异性和AUC分别为100%、92.5%和0.965;而区分败血症患者(GEO:GSE58651或GEO:GSE155952)和结核病患者时,它们分别为100%、100%和1.000。然而,该分类器未能有效区分结核病患者和亚临床寄生虫血症患者。
图6 区分结核病患者和其他疾病对照组时,3-DMR逻辑回归分类器的接收操作特征曲线四、结论
现有的证据表明,DNA甲基化可能是一种诊断结核病的生物标志物。在这里测试的所有分类器中,3-DMR逻辑回归分类器在发现和验证数据集中都表现出色。这个分类器可能为DNA甲基化生物标志物如何适应未来的结核病诊断提供见解,并使结核病患者通过及时诊断避免疾病进展。
期刊相关信息
网友评论