基本概念介绍
根据查准率和查全率的定义,有以下4组概念:
正确肯定(True Positive,TP):预测为正,实际为正
正确否定(True Negative,TN):预测为负,实际为假负
错误肯定(False Positive,FP):预测为正,实际为假负
错误否定(False Negative,FN):预测为负,实际为正
下面这个表格,可以说是很著名了~
查准率precision,研究对象是预测为正的所有,所以分母是TP+FP
查全率recall,研究对象是实际值为正的所有,所以分母是TP+FN
BY THE WAY, precision和recall都是越高越好
precision和recall的权衡
在预测恶性肿瘤的例子中,使用逻辑回归的方法,假设患有肿瘤的标签是
一般情况下,阈值设为0.5
我们有已经训练好的模型和一堆测试集
- 提高precision
从公式的角度,提高pre即是减小FP,减小FP可以通过提高阈值比如提升到0.7,用通俗的话来讲,即只有在很高的把握时,才会判断病人得了肿瘤
但是,提高了阈值,随之而来的问题是,会有实际患肿瘤但是不被预测到,FN增加,recall会下降 - 提高recall
从公式的角度,提高recall即是减小FN,减小FN可以通过减小阈值到0.3,用通俗的话来讲,即不想有漏网之肿瘤
但是,减小了阈值,随之而来的问题是,会有不患肿瘤被预测为患有肿瘤,FP增加,recall会下降
通过以上分析,precision和recall之间是一个trade-off关系,下图用图表来展现这种关系。线的具体形状有很多种,蓝色、粉色、红色都有可能。当阈值很大时,pre增加,recall减小
如何选择阈值——F1系数
有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值(F1 Score)
选择使得F1值最高的阀值
网友评论