我们以一个二分类问题来解释上面这些概念:
一共有100条邮件,每条可能是垃圾邮件(1)或不是(0)
有一个二分类器,分别处理这些邮件,并给出是否是垃圾邮件的预测结果
我们正确地找到垃圾邮件作为Positive,这100条样本会存在以下四种情况
分类 | 标记 | 标记简写 |
---|---|---|
垃圾邮件,且分类器预测为垃圾邮件 | True Positive | TP |
垃圾邮件,且分类器预测为非垃圾邮件 | False Negative | FN |
非垃圾邮件,且分类器预测为垃圾邮件 | False Positive | FP |
非垃圾邮件,且分类器预测为非垃圾邮件 | True Negative | TN |
准确率(Accuracy)
描述的是所有样本中识别正确的比例
精确率(Precision)
描述在预测为垃圾邮件的样本中,有多少是预测正确的
召回率(Recall)
描述在所有的垃圾邮件中,有多少被预测识别到了
F1
根据Precision和Recall的定义,可以看出两者是相互制约的:可以通过降低Recall来很容易的提升Precision,所以需要两者的调和均值来定义一个综合的指标。
ROC
一般来说,分类器可以通过控制阈值来达到不同的分类效果,为了评估分类器本身的效果,可以将不同阈值下指标画在一张图上。ROC就是一种这样的指标。
True Positive Rate (TPR),代表能将正例分对的概率;False Positive Rate (FPR) 代表将负例错分为正例的概率。
在ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR,这也就描绘了分类器在TP(真正的正例)和FP(错误的正例)间的trade-off。
网友评论