混淆矩阵、精确率、召回率,ROC、AUC
对于二分类问题来说,所有的问题被分为0和1两类,混淆矩阵是2*2的矩阵:
Tables | 预测值0 | 预测值1 |
---|---|---|
真实值0 | TN | FP |
真实值1 | FN | TP |
TN:真实值是0,预测值也是0,即我们预测是negative,预测正确了。
FP:真实值是0,预测值是1,即我们预测是positive,但是预测错误了。
FN:真实值是1,预测值是0,即我们预测是negative,但预测错误了。
TP:真实值是1,预测值是1,即我们预测是positive,预测正确了。
由此引申出pricision(精确率)和recall(召回率):
1. pricision=TP/(TP+FP)
2. recall=TP/(TP+FN)
精确度即为被正确预测成1的,占被预测成1的比例。
召回率即为被正确预测成1的,占应该被预测成1的比例。
根据业务的不同,对精确率与召回率的关注不同,有另一个指标进行综合衡量F1 score。
F1 score = 2pricision*recall/(pricision+recall)
F1 Score是精准率和召回率的调和平均值,可以平衡这两个指标。
之前默认分类阈值为0.5,根据实际需要阈值可以进行调整。这里介绍两个概念TPR与FPR,
TPR
FPR
以FPR为x轴,TPR为y轴,可以绘制ROC曲线(Receiver Operation Characteristic Curve)。在ROC曲线下面的面积, 则称为AUC(Area Under Curve),通过计算曲线下的面积AUC,可以判断哪个分类器性能更好。
网友评论