1 分类任务
(注:以下仅讨论二分类的情况)
针对预测值和实际值之间的关系,可以将样本的预测值分成:
- 真正例(True Positive,TP):预测为1,实际为1的样本
- 真负例(True Negative,TN):预测为0,实际为0的样本
- 假正例(False Positive,FP):预测为1,实际为0的样本
- 假负例(False Negative,FN):预测为0,实际为1的样本
因此我们可以得到一个混淆矩阵:
混淆矩阵
1.1 单一指标
在单一指标中,最常用的就是准确率和召回率。
- 准确率(又称查准率):
反应了真正例的样本(预测值为1的且预测对的样本)在所有预测为1的样本中的比例。
- 召回率(又称查全率):
反应了真正例的样本在所有实际值为1的样本中的比,该指标仅关心有多少实际值为1的样本被预测出来。
此外,还有真正例率和负正利率,在接下来要讨论的ROC曲线中用到。
- 真正例率(TPR)
代表分类器预测的正类中实际正实例占所有正实例的比例。
- 负正例率(FPR)
代表分类器预测的正类中实际负实例占所有负实例的比例。
通常来说,单一指标只能描述分类器的部分能力。讨论一个极端情况:
如果我们将分类器的阈值设置的很低(假设为0),所有样本都分为1,则recall=100%,而precision可能很低;
如果我们将分类器的阈值设置的很高(假设为0.9),则只有分类器十分确信的样本被分成1,则precision有可能接近100%(既分类器没有认错实际为1的样本),而recall可能很低(没有查全)。因此,使用单一指标往往不合适。
在实际讨论中,通常需要综合2个指标。因此,之后提出了ROC曲线和AUC曲线,用于综合两个指标,更全面地反应检测器的能力。
1.2 ROC曲线和AUC值
ROC曲线使用了TPR作为纵轴,FPR作为横轴,通过不断地调整阈值(从大到小),可以得到一组TPR和FPR的坐标点,从而绘制出如下的ROC曲线。
ROC曲线样例从直观上讲,ROC曲线越接近(0,1)点,分类能力越强。
在实际比较中,可以使用AUC(Area under Curve,曲线下的面积)作为分类器分类能力的评判标准,分类器分类能力越强,AUC越高,最高为1。
2 单目标跟踪任务
2.1 Precision Plot和Success Plot
Precision Plot和Success Plot是两个衡量目标跟踪精准度的基本参数。
- Precision Plot:预测位置中心点与标注的中心位置间的欧式距离,以像素为单位。
结果用average precision plot来表示,即为该视频序列所有帧的平均误差。 - success plot:主要指的是预测目标所在benchmark的重合程度,即IOU。
其中,为tracked bounding box,为ground_truth bounding box。同样,结果用average success plot来表示,即为该视频序列所有帧的平均误差。
之后,通过不断调整阈值,可以得到average precision plot和success plot随阈值变化的图像。
precision plot(左)和success plot(右)例图2.2 Accuracy,Robustness,EAO
在实时目标跟踪权威平台VOT2017中,官方使用了3个评价指标Accuracy,Robustness和EAO。
- A(Accuracy,准确率):是指跟踪器在单个测试序列下的平均重叠率(两矩形框的相交部分面积除以两矩形框的相并部分的面积。即average success plot。
- R(Robustness,鲁棒性):是指单个测试序列下的跟踪器失败次数,当重叠率为0时即可判定为失败。
- EAO(Expected Average Overlap,平均重叠期望):对每个跟踪器在一个短时图像序列上的非重置重叠的期望值,是VOT2017的主要评价标准。
2.3 EAO详解
EAO提出的目的是希望一个好的跟踪器同时拥有好的A和R。
假设有帧长的一个视频,那么一个跟踪器在这段视频上的覆盖率精度为每一帧精度的均值,这个精度就是IOU,用表示,即
那么一个理想的EAO就是把从到对应的求个平均,就是期望平均覆盖率。(是一个典型视频长度的范围,这些长度的视频占所有视频的概率是0.5)
网友评论