美文网首页
视觉任务中常见的评价指标(一)

视觉任务中常见的评价指标(一)

作者: Frank_Zhu117 | 来源:发表于2019-06-02 00:10 被阅读0次

1 分类任务

(注:以下仅讨论二分类的情况)
针对预测值和实际值之间的关系,可以将样本的预测值分成:

  1. 真正例(True Positive,TP):预测为1,实际为1的样本
  2. 真负例(True Negative,TN):预测为0,实际为0的样本
  3. 假正例(False Positive,FP):预测为1,实际为0的样本
  4. 假负例(False Negative,FN):预测为0,实际为1的样本

因此我们可以得到一个混淆矩阵:


混淆矩阵

1.1 单一指标

在单一指标中,最常用的就是准确率和召回率。

  • 准确率(又称查准率):

precision=\frac{TP}{TP+FP}

反应了真正例的样本(预测值为1的且预测对的样本)在所有预测为1的样本中的比例。

  • 召回率(又称查全率):

recall=\frac{TP}{TP+FN}

反应了真正例的样本在所有实际值为1的样本中的比,该指标仅关心有多少实际值为1的样本被预测出来。

此外,还有真正例率和负正利率,在接下来要讨论的ROC曲线中用到。

  • 真正例率(TPR)
    TPR=\frac{TP}{TP+FN}

代表分类器预测的正类中实际正实例占所有正实例的比例。

  • 负正例率(FPR)
    FPR=\frac{FP}{FP+TN}
    代表分类器预测的正类中实际负实例占所有负实例的比例。

通常来说,单一指标只能描述分类器的部分能力。讨论一个极端情况:
如果我们将分类器的阈值设置的很低(假设为0),所有样本都分为1,则recall=100%,而precision可能很低;
如果我们将分类器的阈值设置的很高(假设为0.9),则只有分类器十分确信的样本被分成1,则precision有可能接近100%(既分类器没有认错实际为1的样本),而recall可能很低(没有查全)。因此,使用单一指标往往不合适。

在实际讨论中,通常需要综合2个指标。因此,之后提出了ROC曲线和AUC曲线,用于综合两个指标,更全面地反应检测器的能力。

1.2 ROC曲线和AUC值

ROC曲线使用了TPR作为纵轴,FPR作为横轴,通过不断地调整阈值(从大到小),可以得到一组TPR和FPR的坐标点,从而绘制出如下的ROC曲线。

ROC曲线样例

从直观上讲,ROC曲线越接近(0,1)点,分类能力越强。
在实际比较中,可以使用AUC(Area under Curve,曲线下的面积)作为分类器分类能力的评判标准,分类器分类能力越强,AUC越高,最高为1。

2 单目标跟踪任务

2.1 Precision Plot和Success Plot

Precision Plot和Success Plot是两个衡量目标跟踪精准度的基本参数。

  • Precision Plot:预测位置中心点与标注的中心位置间的欧式距离,以像素为单位。
    结果用average precision plot来表示,即为该视频序列所有帧的平均误差。
  • success plot:主要指的是预测目标所在benchmark的重合程度,即IOU。

SuccessPlot=\frac{\left | r_t \bigcap r_o \right |}{\left | r_t \bigcup r_o \right |}

其中,r_t为tracked bounding box,r_o为ground_truth bounding box。同样,结果用average success plot来表示,即为该视频序列所有帧的平均误差。

之后,通过不断调整阈值,可以得到average precision plot和success plot随阈值变化的图像。

precision plot(左)和success plot(右)例图

2.2 Accuracy,Robustness,EAO
在实时目标跟踪权威平台VOT2017中,官方使用了3个评价指标Accuracy,Robustness和EAO。

  • A(Accuracy,准确率):是指跟踪器在单个测试序列下的平均重叠率(两矩形框的相交部分面积除以两矩形框的相并部分的面积。即average success plot。
  • R(Robustness,鲁棒性):是指单个测试序列下的跟踪器失败次数,当重叠率为0时即可判定为失败。
  • EAO(Expected Average Overlap,平均重叠期望):对每个跟踪器在一个短时图像序列上的非重置重叠的期望值,是VOT2017的主要评价标准。

2.3 EAO详解

EAO提出的目的是希望一个好的跟踪器同时拥有好的A和R。
假设有N_s帧长的一个视频,那么一个跟踪器在这段视频上的覆盖率精度为每一帧精度的均值,这个精度就是IOU,用\phi表示,即

\phi_{N_s}=\frac{1}{N_s}\sum_{i=1}^{N}\phi_i

那么一个理想的EAO就是把N_sN_{low}N_{high}对应的\phi_{N_s}求个平均,就是期望平均覆盖率。([N_{low},N_{high}]是一个典型视频长度的范围,这些长度的视频占所有视频的概率是0.5)

相关文章

网友评论

      本文标题:视觉任务中常见的评价指标(一)

      本文链接:https://www.haomeiwen.com/subject/nzuatctx.html