视觉任务中常见的评价指标(一）

作者: Frank_Zhu117 | 来源:发表于2019-06-02 00:10 被阅读0次

视觉任务中常见的评价指标(一）
机器学习中的常见评价指标
机器学习常用评价指标
二分类模型常用评价指标汇总
【机器学习基础】
模型评价指标 - 分类和回归任务
数据挖掘
机器学习评价指标
机器翻译与自动文摘评价指标 BLEU 和 ROUGE
机器翻译与自动文摘评价指标 BLEU 和 ROUGE

1 分类任务

（注：以下仅讨论二分类的情况）
针对预测值和实际值之间的关系，可以将样本的预测值分成：

真正例（True Positive,TP）：预测为1，实际为1的样本
真负例（True Negative,TN）：预测为0，实际为0的样本
假正例（False Positive,FP）：预测为1，实际为0的样本
假负例（False Negative,FN）:预测为0，实际为1的样本

因此我们可以得到一个混淆矩阵：

混淆矩阵

1.1 单一指标

在单一指标中，最常用的就是准确率和召回率。

准确率（又称查准率）：

$precision=\frac{TP}{TP+FP}$

反应了真正例的样本（预测值为1的且预测对的样本）在所有预测为1的样本中的比例。

召回率（又称查全率）：

$recall=\frac{TP}{TP+FN}$

反应了真正例的样本在所有实际值为1的样本中的比，该指标仅关心有多少实际值为1的样本被预测出来。

此外，还有真正例率和负正利率，在接下来要讨论的ROC曲线中用到。

真正例率（TPR）
$TPR=\frac{TP}{TP+FN}$

代表分类器预测的正类中实际正实例占所有正实例的比例。

负正例率（FPR）
$FPR=\frac{FP}{FP+TN}$
代表分类器预测的正类中实际负实例占所有负实例的比例。

通常来说，单一指标只能描述分类器的部分能力。讨论一个极端情况：
如果我们将分类器的阈值设置的很低（假设为0），所有样本都分为1，则recall=100%，而precision可能很低；
如果我们将分类器的阈值设置的很高（假设为0.9），则只有分类器十分确信的样本被分成1，则precision有可能接近100%（既分类器没有认错实际为1的样本），而recall可能很低（没有查全）。因此，使用单一指标往往不合适。

在实际讨论中，通常需要综合2个指标。因此，之后提出了ROC曲线和AUC曲线，用于综合两个指标，更全面地反应检测器的能力。

1.2 ROC曲线和AUC值

ROC曲线使用了TPR作为纵轴，FPR作为横轴，通过不断地调整阈值（从大到小），可以得到一组TPR和FPR的坐标点，从而绘制出如下的ROC曲线。

ROC曲线样例

从直观上讲，ROC曲线越接近（0，1）点，分类能力越强。
在实际比较中，可以使用AUC（Area under Curve，曲线下的面积）作为分类器分类能力的评判标准，分类器分类能力越强，AUC越高，最高为1。

2 单目标跟踪任务

2.1 Precision Plot和Success Plot

Precision Plot和Success Plot是两个衡量目标跟踪精准度的基本参数。

Precision Plot:预测位置中心点与标注的中心位置间的欧式距离，以像素为单位。
结果用average precision plot来表示，即为该视频序列所有帧的平均误差。
success plot：主要指的是预测目标所在benchmark的重合程度，即IOU。

$SuccessPlot=\frac{\left | r_t \bigcap r_o \right |}{\left | r_t \bigcup r_o \right |}$

其中， $r_t$ 为tracked bounding box, $r_o$ 为ground_truth bounding box。同样，结果用average success plot来表示，即为该视频序列所有帧的平均误差。

之后，通过不断调整阈值，可以得到average precision plot和success plot随阈值变化的图像。

precision plot(左)和success plot(右)例图

2.2 Accuracy，Robustness，EAO
在实时目标跟踪权威平台VOT2017中，官方使用了3个评价指标Accuracy，Robustness和EAO。

A（Accuracy，准确率）：是指跟踪器在单个测试序列下的平均重叠率（两矩形框的相交部分面积除以两矩形框的相并部分的面积。即average success plot。
R（Robustness，鲁棒性）：是指单个测试序列下的跟踪器失败次数，当重叠率为0时即可判定为失败。
EAO（Expected Average Overlap，平均重叠期望）：对每个跟踪器在一个短时图像序列上的非重置重叠的期望值，是VOT2017的主要评价标准。

2.3 EAO详解

EAO提出的目的是希望一个好的跟踪器同时拥有好的A和R。
假设有 $N_s$ 帧长的一个视频，那么一个跟踪器在这段视频上的覆盖率精度为每一帧精度的均值，这个精度就是IOU，用 $\phi$ 表示，即

$\phi_{N_s}=\frac{1}{N_s}\sum_{i=1}^{N}\phi_i$

那么一个理想的EAO就是把 $N_s$ 从 $N_{low}$ 到 $N_{high}$ 对应的 $\phi_{N_s}$ 求个平均，就是期望平均覆盖率。( $[N_{low},N_{high}]$ 是一个典型视频长度的范围，这些长度的视频占所有视频的概率是0.5)

视觉任务中常见的评价指标(一）
1 分类任务（注：以下仅讨论二分类的情况）针对预测值和实际值之间的关系，可以将样本的预测值分成：真正例（Tru...
机器学习中的常见评价指标
一些定义 TP，True Positive FP，False Positive TN，True Negative ...
机器学习常用评价指标
机器学习常用评价指标在机器学习任务中，如何对模型的好坏对模型的优化/定量评价/改进具有重大的作用，通过不同的指标...
二分类模型常用评价指标汇总
有很多指标可以衡量机器学习模型的效果，不同的任务使用的评价指标也不尽相同。本文对二分类任务的评价指标加以总结。全文...
【机器学习基础】
1、常用分类算法的优缺点？ 2、评价指标 1）正确率（accuracy）正确率是我们最常见的评价指标，accur...
模型评价指标 - 分类和回归任务
根据模型处理的任务不同，评价标准也不同，分类任务和回归任务的评价指标如下：分类：accuracy、误分类率、...
数据挖掘
预测指标分类常见的评估指标：对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，R...
机器学习评价指标
1.机器学习常见评价指标为什么要用AUC作为二分类模型的评价指标呢？为什么不直接通过计算准确率来对模型进行评价呢...
机器翻译与自动文摘评价指标 BLEU 和 ROUGE
在机器翻译任务中，BLEU 和 ROUGE 是两个常用的评价指标，BLEU 根据精确率(Precision)衡量翻...
机器翻译与自动文摘评价指标 BLEU 和 ROUGE
在机器翻译任务中，BLEU 和 ROUGE 是两个常用的评价指标，BLEU 根据精确率(Precision)衡量翻...