参考文献:#8+SCI,机器学习+WGCNA+免疫浸润+分型+PCR验证,内容丰富,这种文章不接收,天理不容! - 简书 (jianshu.com)
1、原文Identification of immune microenvironment subtypes and signature genes for Alzheimer's disease diagnosis and risk prediction based on explainable machine learning - PubMed (nih.gov)
四、机器学习模型的开发和估计
1.为了确定预测AD的最佳机器学习模型,作者将组合数据集中436个样本(247个正常样本和189个AD样本)随机分为训练队列(70%,N=305)和测试队列(30%,N=131)。选取31个免疫微环境相关DEG的表达谱作为输入变量,建立XGBoost、CatBoost、SVM、LightGBM、LR和RF等6个机器学习模型来预测结果。
2.训练队列中,多个机器学习模型(准确率、AUC、召回率、精度、F1、kappa和MCC)在训练队列中的表现如下图S2A所示。LightGBM模型的准确率(0.797)、AUC(0.858)、召回率(0.736)、精密度(0.792)、F1(0.759)、kappa(0.585)和MCC(0.591)最高。SVM模型精密度(0.731)最低,AUC(0.808)最低。
image- 测试队列中,XGBoost 模型性能最佳,其AUC值为0.86 (CatBoost: 0.84, SVM: 0.80, LightGBM: 0.85, LR: 0.76, RF: 0.80), P-R值为0.83 (CatBoost: 0.83, SVM: 0.77, LightGBM: 0.82, LR: 0.68, RF: 0.76)(上图S2A-E和下图5A-C)。
4.计算准确性、召回率、精密度、F1、kappa 和 MCC后,图5C结果显示XGBoost模型优于其他模型,LightGBM模型性能次之。因此,后续预测选择XGBoost和LightGBM模型。
五、机器学习模型的全局和局部解释
1.通过SHAP值阐明每个特征变量对预测模型的影响。基于 XGBoost 模型的 SHAP 汇总图对特征变量的重要性排序表明,对 XGBoost 模型贡献最大的前 5 个变量是 CXCR4、PPP3R1、HSP90AB1、CXCL10 和 S100A12(图6A)。
- 采用 SHAP 依赖分析来描述单个特征变量如何影响 XGBoost 预测模型的结果(图 6B)。特征变量的 SHAP 值越高,AD 的可能性就越大。
3.LightGBM模型中最重要的5个变量与XGBoost模型中的变量一致(图6C)。SHAP 依赖分析也用于解释每个特征变量对 LightGBM 模型输出的影响(图6D)。
image链接:https://www.jianshu.com/p/3b9ef0f7caf8
网友评论