美文网首页
SHAP-2-PyCaret 框架

SHAP-2-PyCaret 框架

作者: oceanandshore | 来源:发表于2023-10-11 15:39 被阅读0次

    参考文献:#8+SCI,机器学习+WGCNA+免疫浸润+分型+PCR验证,内容丰富,这种文章不接收,天理不容! - 简书 (jianshu.com)

    1、原文Identification of immune microenvironment subtypes and signature genes for Alzheimer's disease diagnosis and risk prediction based on explainable machine learning - PubMed (nih.gov)

    四、机器学习模型的开发和估计

    1.为了确定预测AD的最佳机器学习模型,作者将组合数据集中436个样本(247个正常样本和189个AD样本)随机分为训练队列(70%,N=305)和测试队列(30%,N=131)。选取31个免疫微环境相关DEG的表达谱作为输入变量,建立XGBoost、CatBoost、SVM、LightGBM、LR和RF等6个机器学习模型来预测结果。

    2.训练队列中,多个机器学习模型(准确率、AUC、召回率、精度、F1、kappa和MCC)在训练队列中的表现如下图S2A所示。LightGBM模型的准确率(0.797)、AUC(0.858)、召回率(0.736)、精密度(0.792)、F1(0.759)、kappa(0.585)和MCC(0.591)最高。SVM模型精密度(0.731)最低,AUC(0.808)最低。

    image
    1. 测试队列中,XGBoost 模型性能最佳,其AUC值为0.86 (CatBoost: 0.84, SVM: 0.80, LightGBM: 0.85, LR: 0.76, RF: 0.80), P-R值为0.83 (CatBoost: 0.83, SVM: 0.77, LightGBM: 0.82, LR: 0.68, RF: 0.76)(上图S2A-E和下图5A-C)。
    image

    4.计算准确性、召回率、精密度、F1、kappa 和 MCC后,图5C结果显示XGBoost模型优于其他模型,LightGBM模型性能次之。因此,后续预测选择XGBoost和LightGBM模型。

    五、机器学习模型的全局和局部解释

    1.通过SHAP值阐明每个特征变量对预测模型的影响。基于 XGBoost 模型的 SHAP 汇总图对特征变量的重要性排序表明,对 XGBoost 模型贡献最大的前 5 个变量是 CXCR4、PPP3R1、HSP90AB1、CXCL10 和 S100A12(图6A)。

    1. 采用 SHAP 依赖分析来描述单个特征变量如何影响 XGBoost 预测模型的结果(图 6B)。特征变量的 SHAP 值越高,AD 的可能性就越大。

    3.LightGBM模型中最重要的5个变量与XGBoost模型中的变量一致(图6C)。SHAP 依赖分析也用于解释每个特征变量对 LightGBM 模型输出的影响(图6D)。

    image

    链接:https://www.jianshu.com/p/3b9ef0f7caf8

    2、文章里用了PyCaret (3.0.0)Python包建立了六个机器学习模型,所以学习下PyCaret

    官网说明PyCaret — pycaret 3.0.4 documentation
    机器学习pycare框架入门简介 - 简书 (jianshu.com)

    相关文章

      网友评论

          本文标题:SHAP-2-PyCaret 框架

          本文链接:https://www.haomeiwen.com/subject/lsowbdtx.html