美文网首页
7+非肿瘤,结合热点基因集(NET)+机器学习识别关键基因+建模

7+非肿瘤,结合热点基因集(NET)+机器学习识别关键基因+建模

作者: 生信小课堂 | 来源:发表于2023-08-24 07:51 被阅读0次

    影响因子:7.3

    研究概述:作为血管炎的主要亚群,抗中性粒细胞胞浆抗体相关血管炎(AAV)是一种相对罕见的自身免疫性疾病,影响肾脏功能。由AAV引起的肾小球肾炎称为ANCA相关性肾小球肾炎(ANCA-GN)。NETs(中性粒细胞胞外核外陷阱)NET可能参与AAV的发生和发展。当AAV中的核染色体作为NETs从细胞的外层空间挤出时,它可以诱发一种新型的细胞死亡,称为NETosis。本研究中,加权基因共表达网络分析(WGCNA)用于识别与ANCA-GN中临床性状相关的模块,与NETs相关基因相交,并识别差异表达的NETs(DE-NETs)。DE-NET用于构建NETosisScore模型,该模型用于将样本分为高风险组和低风险组。探索了这些群体的基因表达、免疫微环境和生物功能。通过三种机器学习方法筛选了NETosis相关基因(NRG),并探索了其潜在的生物功能、免疫细胞入侵和临床价值。QPCR在ANCA-GN患者的全血样本中验证了大多数NRG的差异表达,为干预提供了新的见解。

    目前最新的机器学习思路是使用100多种机器学习组合进行建模或者筛选关键基因,这种方法在肿瘤中已经发表多篇1区文章,例如

    **[最新1区8+纯生信,结合10种机器学习算法构建模型,换个肿瘤可重复!]

    如果这种思路在非肿瘤中使用,势必会给文章提高档次!

    研究结果:

    流程图

    一、WGCNA构建和hub模块识别

    作者将两个数据集GSE108109和GSE104948合并为一个队列进行进一步分析,选择了β = 9(无尺度R2 = 0.9)的软阈值(图2A),密切相关的模块使用0.25的聚类高度阈值进行合并,并显示在聚类树下方(图2B),确定了与ANCA-GN相关的三个模块(图2C)。这三个模块中的基因与已知的NETs基因集相交,黄色模块与NETs的交集最多(图2E),发现黄色模块和ANCA-GN组之间存在显著的正相关性。此外,根据黄色模块中的散点图,GS和MM之间也发现了显著的相关性(图2D)。因此,黄色模块被确定为与ANCA-GN的NETosis最相关的模块。从图2F可以看出,ANCA-GN和对照组之间的差异,最后,18个DE-NET被纳入了研究。


    二、DE-NET的功能分析

    GO富集分析中,“白细胞介素-6生产的积极调节”、“细胞因子生产的积极调节”和“白细胞介素-8生产的积极调节”主要富集在生物过程(BP)中,白细胞介素-8主要富集在生物过程中(BP),“分泌颗粒膜”、“三级颗粒”和“富集ficolin−1−的颗粒”主要富集于细胞组成中(CC),而“水解酶活性主要富集在分子功能(MF)中(图3A)。在KEGG富集分析中,“中性粒细胞胞外陷阱形成”、“toll样受体信号通路”和“金黄色葡萄球菌感染”主要富集(图3B),这表明炎症因子产生和toll样受体信号通路可能参与ANCA-GN中NETosis的形成。


    三、NETosisScore模型的构建和验证

    基于18DE-NET的ssGSEA得分中位数构建了NETosis评分(NETosisScore),64名患者被分为高风险和低风险组(图4A)。通过主成分分析(PCA)可以清楚地区分高风险和低风险群体之间的分布(图4B)。从两组的NETosisScore分布图中可以看出,随着评分的增加,高风险组的患者数量逐渐增加(图4C)。所有DE-NET在高风险组和低风险组之间都有显著的差异表达(图4D)。NETosisScore可以显著区分正常对照组和ANCA-GN患者(p=2.3e-10),与正常对照组相比,ANCA-GN患者的NETosisScore更高(图4E);训练集中NETosisScore的ROC曲线下的面积为0.920(p<0.001)(图4H)。在E-MTAB-1994集(p=0.003)和GSE104954集(p=0.00017)(图4G)中,ANCA-GN组的NETosisScore不仅在统计学上明显高于对照组,而且在E-MTAB-1994集(p<0.001)中发现ROC曲线的面积为0.797(图4I)和GSE104954集(图4J)为0.825。



    四、两种NETosisScore亚型的免疫学特征和生物途径

    作者比较了高风险组和低风险组之间的免疫细胞浸润丰度,与低风险组相比,高风险组的免疫细胞浸润量更高。激活的CD4 T细胞、中央CD4记忆T细胞和效应CD4记忆T细胞在两个亚组中都有显著的差异表达,高危组的水平较高(图5A),NETosisScore与几个CD4 T细胞呈正相关(图5B)。Treg细胞在高危NETosisScore组中表现出最显著的相关性和最高的相关系数(图5C)。

    在高风险组中,主要是细胞对生物刺激、白细胞介素-6产生、白细胞迁移和吞噬作用的反应(图5D),而在低风险组中,主要是α氨基酸代谢、单羧酸分解代谢和有机酸分解代谢(图5E)。B细胞受体信号通路、细胞因子-细胞因子受体相互作用、Toll样受体信号通路和NOD样受体信号通路在高风险组中富集,而其他途径,如赖氨酸降解、组氨酸代谢和脂肪酸代谢,在低风险组中更集中(图5F)。


    五、NETosis相关基因的鉴定

    作者使用SVM-RFE算法根据18个DE-NET筛选出8个基因(图6A,B)。接下来应用随机森林树算法来识别七个基因(图6C,D),Lasso回归确定了10个NRG(图6E,F)。随后,三种机器学习算法的结果取交集,最后六个重要基因被确定为ANCA-GN潜在生物标志物的NRG(CYBB、ITGB2、ITGAM、TLR2、TLR7和LILRB2)(图6G)。


    六、NRGs的免疫特性和相互作用功能分析

    使用28种免疫细胞浸润或免疫反应来探索ANCA-GN组和对照组之间的免疫特征差异(图7A),ANCA-GN组的CCR、巨噬细胞、T细胞抑制和TIL水平明显高于健康对照组(图7B)。

    通过GO/KEGG富集对26个相关基因分析,富集的生物过程(BP)包括调节白细胞介素-8的产生和调节白细胞细胞介素-6的产生,以及细胞对生物刺激的反应。最富集的细胞成分(CC)是分泌颗粒膜、质膜组成部分和三级颗粒。分子功能(MF)类别富含肽结合、DNA结合转录因子活性的正调控以及以氧为受体作用于NAD(P)H的氧化还原酶活性(图7D)。KEGG分析显示,toll样受体信号通路、模式识别受体信号通路和NIK/NFκB信号通路主要富集(图7E)。



    七、线谱图的构建和临床肾功能分析

    基于训练集(GSE104948和GSE108109)中6个NRG(CYBB、ITGB2、ITGAM、TLR2、TLR7和LILRB2)的表达水平构建了ANCA-GN的临床诊断模型(图8A)。校准曲线显示了ANCA-GN的实际风险和预测风险之间的最小差异(图8B)。DCA表明,当DCA曲线的高风险阈值为0-1时,该模型明显高于其他单个NRG(图8C)。ROC曲线显示,模型曲线(AUC)下的面积约为0.984,高于任何其他单个基因的AUC(图8D)。校准曲线、DCA曲线分析和模型ROC曲线的AUC结果与训练数据集一致(图8E-G)。

    Spearman相关分析显示,随着肾功能的下降,6个NRG的表达水平增加,所有NRG都与GFR呈正相关。TLR2和GFR之间发现了最强的相关性(图8H)。所有6个NRG都与Scr水平呈负相关(图8I)。



    八、NRG的独立数据集验证

    进行独立数据集验证,在GSE104954(p<0.001)(图9A)和E-MTAB-1944(p<0.001)(图9B)中检测到了六个NRG的差异表达。在训练数据集中,所有NRG都表现出高水平的诊断准确性,如ROC曲线(AUC)下的区域所示,这些区域都大于0.90(图9C-H)。


    九、qPCR和免疫组织化学染色

    qPCR结果表明,除ITGB2外,与健康对照组相比,ANCA-GN患者的所有NRG都明显过度表达,ANCA-GN组和健康组之间的表达水平在统计学上显著(图10A-F)。

    对ANCA-GN患者和肾透明细胞癌患者邻近肾组织中肾组织中NRG的免疫组织化学染色(图10G),证实NRG在ANCA-GN中明显过度表达,可能在ANCA-GN中发挥重要作用。


    研究总结:本研究通过全面的生物信息学分析系统地探索了ANCA-GN的潜在机制。与此同时,这项研究还筛选了一些关键基因和重要通路,这可能有助于在ANCA-GN中找到新的生物标志物或治疗靶点。为了更有针对性地探索ANCA-GN的病理生理机制,还需要进一步的动物和临床分子生物学实验来验证这项研究的结果。

    相关文章

      网友评论

          本文标题:7+非肿瘤,结合热点基因集(NET)+机器学习识别关键基因+建模

          本文链接:https://www.haomeiwen.com/subject/qdemmdtx.html