美文网首页
哲哲的ML笔记(二十三:查准率(Precision)和查全率(R

哲哲的ML笔记(二十三:查准率(Precision)和查全率(R

作者: 沿哲 | 来源:发表于2021-04-15 15:03 被阅读0次

    基本概念介绍

    根据查准率和查全率的定义,有以下4组概念:
    正确肯定(True Positive,TP):预测为正,实际为正
    正确否定(True Negative,TN):预测为负,实际为假负
    错误肯定(False Positive,FP):预测为正,实际为假负
    错误否定(False Negative,FN):预测为负,实际为正

    下面这个表格,可以说是很著名了~


    查准率precision,研究对象是预测为正的所有,所以分母是TP+FP
    precision=\frac{TP}{no.of\;predicted\; positive}=\frac{TP}{TP+FP}

    查全率recall,研究对象是实际值为正的所有,所以分母是TP+FN
    recall=\frac{TP}{no.of\;actual\;positive}=\frac{TP}{TP+FN}
    BY THE WAY, precision和recall都是越高越好

    precision和recall的权衡

    在预测恶性肿瘤的例子中,使用逻辑回归的方法,假设患有肿瘤的标签是y=1
    一般情况下,阈值设为0.5
    predict\;1\;\;if\;\;\;h_\theta(x)\leq0.5
    predict\;0\;\;if\;\;\;h_\theta(x)>0.5
    我们有已经训练好的模型和一堆测试集

    1. 提高precision
      从公式的角度,提高pre即是减小FP,减小FP可以通过提高阈值比如提升到0.7,用通俗的话来讲,即只有在很高的把握时,才会判断病人得了肿瘤
      但是,提高了阈值,随之而来的问题是,会有实际患肿瘤但是不被预测到,FN增加,recall会下降
    2. 提高recall
      从公式的角度,提高recall即是减小FN,减小FN可以通过减小阈值到0.3,用通俗的话来讲,即不想有漏网之肿瘤
      但是,减小了阈值,随之而来的问题是,会有不患肿瘤被预测为患有肿瘤,FP增加,recall会下降

    通过以上分析,precision和recall之间是一个trade-off关系,下图用图表来展现这种关系。线的具体形状有很多种,蓝色、粉色、红色都有可能。当阈值很大时,pre增加,recall减小

    如何选择阈值——F1系数

    有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值(F1 Score)
    F1=2\frac{precision*recall}{precision+recall}
    选择使得F1值最高的阀值

    相关文章

      网友评论

          本文标题:哲哲的ML笔记(二十三:查准率(Precision)和查全率(R

          本文链接:https://www.haomeiwen.com/subject/byrdlltx.html