今天学习了几个概念,f1-score,ROC,AUC
f1-score
f1-score
TP:预测为正,实际为正;
FP:预测为正,实际为负样本;
TN:预测为负,实际为正;
FN:预测为负,实际为负。
后面那个字母说明的是预测的为哪个类。
进一步,我们可以定义 recall ,precision, F1-score 如下所示:
可以看到,recall 体现了分类模型HH对正样本的识别能力,recall 越高,说明模型对正样本的识别能力越强,precision 体现了模型对负样本的区分能力,precision越高,说明模型对负样本的区分能力越强。F1-score 是两者的综合。F1-score 越高,说明分类模型越稳健。
比如我们常见的雷达预警系统,我们需要对雷达信号进行分析,判断这个信号是飞行器(正样本)还是噪声 (负样本), 很显然,我们希望系统既能准确的捕捉到飞行器信号,也可以有效地区分噪声信号。所以就要同时权衡recall 和 precision这两个指标,如果我们把所有信号都判断为飞行器,那 recall 可以达到1,但是precision将会变得很低(假设两种信号的样本数接近),可能就在 0.5 左右,那F1-score 也不会很高。
有的时候,我们对recall 与 precision 赋予不同的权重,表示对分类模型的偏好:
ROC
PR曲线
横坐标为假阳性率,纵坐标为真阳性率。
假阳性率等于FP除以N,FP是错分为正样本的数量,N为真实的负样本数;
真阳性率等于TP除以P,TP是正确分类为正样本的数量,P为真实的正样本数。
AUC
AUC指的是ROC曲线下的面积大小,该值能够量化的反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC的横轴做积分就可以了。由于ROC曲线一般在y=x上方(如果在下面,那只需要将预测概率改为1-p就可以得到一个更好的分类器),所以AUC的值一般为0.5-1.
网友评论