美文网首页
统计学 校准度和区分度

统计学 校准度和区分度

作者: cHarden13 | 来源:发表于2020-02-26 09:17 被阅读0次

    校准度和区分度

    discrimination:

    在模型预测中,看能否找到一个截点,把患者和非患者正确区分开来,如果区分的越开,则与实际情况越吻合,提示模型区分度越好。通常用ROC、C-Statistics来度量(在Logistic回归模型中ROC曲线下面积=C-Statistics),当然NRI(Net reclassification improvement)和 IDI(integrated discrimination improvement)也是度量指标之一。
    C-index/C-Statistics是concordance index,也叫做一致性指数。比如说有m个病人,预测A病人存活时间长于B病人,并且预测结果与实际情况一致,那么我们就称为这是一致的对子。c-index就是从m个病人中一致的对子的比例。所以c-index是0到1的数,当c-index是0.5的时候,表面预测相当于随机预测。
    决策曲线分析 (Decision Curve Analysis )也是方法之一。

    calibration:

    评价模型预测值的大小和结局事件发生概率的大小是否一致,越接近则模型校准度越好。

    以下展示4种情况:
    1
    2
    3
    最理想模型,可准确预测是否患病(0 or 100%)

    对于一个疾病预测模型,应先考虑discrimination,如果模型区分度较差,不能区分不同风险人群,那么此模型就失去临床应用价值,再继续评价calibration也无意义了。
    是否用NRI和IDI评估模型区分度?周支瑞:临床预测模型构建方法学系列文章汇总 (最新版)。

    二.优化模型

    逐步回归法
    最佳子集法
    回归系数的惩罚(lasso/ridge)

    残差与逻辑回归的诊断

    文献:Residuals and regression diagnostics: focusing on logistic regression

    1.评估模型整体拟合情况

    residualPlots画残差图

    2.评估个别观察值

    outlier离群值

    在协变量中,有异常反应的观察值。比如说,年龄超过80岁且伴有循环衰竭和肾脏衰竭的患者非常容易死亡。那么具有上述特征的生存患者就是离群值。
    离群值可能对模型拟合有重要影响,离群值可以用学生化残差进行检验。

    leverage杠杆值

    杠杆值是远离协变量模式(或回归因子空间)平均值的观察值。比如参加高考的学生多为17-20岁之间,那么76岁的应试者就具有较大的杠杆作用。杠杆值可以用帽子(cat)值来做统计描述,每一个观察值的帽子值都可以用car包中的hatvalues()获得。

    influence影响值

    如果某个值的删除对回归模型系数的估算会产生本质的改变,该观测值即被称为影响值。影响值可被认为是杠杆值和离群值的综合产物。库克距离是影响值的一种表示方法。

    相关文章

      网友评论

          本文标题:统计学 校准度和区分度

          本文链接:https://www.haomeiwen.com/subject/tpetchtx.html