对机器学习模型的泛化性能进行评估,通常需要衡量模型的泛化能力,也就是性能度量。常见的性能度量指标包括:准确率,查准率,查全率(召回率),F1等。在详细介绍这些指标之前,我们先来解释一下什么是混淆矩阵(confusion matrix)。
对于一个二分类问题,可以将样本根据其真实的类别以及机器学习模型预测的类别组合划分成真正例(True Positive,TP),假正例(False Positive,FP),真负例(True Negative,TN)和假负例(False Negative,FN)。那么TP+FP+TN+FN=N表示样本总数。分类结果的混淆矩阵如下图所示。
confusion matrix
通过上图我们知道:
- TP:真实为正例,也被预测为正例的样本。
- FP:真实为负例,但被预测为正例的样本。
- TN:真实为负例,也被预测为负例的样本。
- FN:真实为正例,但被预测为负例的样本。
以上就是混淆矩阵的主要内容,在此基础上我们详细介绍以下常用的指标定义及计算公式,默认情况下,以下的讨论都是在二分类范围内。
准确率(Accuracy)
- 准确率指的是被正确分类的样本比例。公式如下:
查准率(Precision)
-预测为正例且真实为正例的样本占预测为正例的样本的比例。公式如下:
查全率(Recall)
-查全率也叫召回率,指的是预测为正例且真实为正例的样本占真实为正例的样本的比例。公式如下:
F1
- 查准率和查全率是互相矛盾的一对,一般查准率高时,查全率往往偏低,而查全率高时,查准率往往偏低。而F1是一种同时兼顾查准率和查全率的评价指标。F1分数可以看作是模型查准率和查全率的一种加权平均,最大值是1,最小值是0。公式如下,其中N表示样本总数:
网友评论