美文网首页
算法性能评价指标及分析

算法性能评价指标及分析

作者: 几时见得清梦 | 来源:发表于2019-08-03 10:58 被阅读0次

    模型评价指标总结:模型评价指标

    一、图像分类

    二、目标检测

    1. FPPW和FPPI

    两者都侧重考察FP(False Positive,即误检)出现的频率。

    1. FPPW (False Positive per Window)

      • 基本含义:给定一定数目N的负样本图像,分类器将负样本判定为“正”的次数FP,其比率FP/N即为FPPW。
      • FPPW意义与ROC中的假阳率相同。FPPW中,一张图就是一个样本。
    2. FPPI (False Positive per Image)

      • 基本含义:给定一定数目N的样本集,内含N张图像,每张图像内包含或不包含检测目标(每张图像均需要标注:(1)包含目标的个数;(2)目标的准确位置L)。
        然后在每张图像上运行分类器,检测目标并得到位置p。然后,检查每张图像内的检测结果是否“击中”标定的目标:
        a. 若图像内无目标,而分类器给出了n个“目标”检测结果,那么False Positive 次数 +n;
        b. 若图像内有目标,则判断p是否击中L(判断标准主要看p与L的重叠率)。若判断未击中,则False Positive 次数 +1。
        最后 FPPI = (False Positive 次数)/N。
    3. FPPI 相比于FPPW来说,更接近于分类器的实际应用情况

    2. 用mAP衡量目标检测的性能是否科学?

    1. 实际的业务场景中,通常不会选择mAP(0.5-0.95)这种指标来衡量一个detector的性能,一般还是用FPPI、或者相同Recall下比较Precision。主要原因为:参考知乎回答
      • 应用场景中一般0.5的IoU足够了,并不需要过度严格的指标,比如行人检测、人脸检测等等。
      • mAP会被一些涨recall的方法推上去(脑补一下PR曲线),比如用soft-nms,focal loss等方法测试或训出来的模型Recall会很高,mAP相应的通常会涨一些,但是都是涨的低Precision的区域,低精度区对应用场景来说没用,因为一般实际应用的时候都是卡高Precision,涨回来的Recall其实并没有什么用。
      • 应用的时候会卡单一的阈值,比如0.5,mAP对阈值做了平均,这时候就更不能用了。所以常常一些涨mAP的方法在行人和人脸上其实并不能涨点,还是要根据指标和实际的应用场景来确定。

    相关文章

      网友评论

          本文标题:算法性能评价指标及分析

          本文链接:https://www.haomeiwen.com/subject/skaddctx.html