分类算法常用指标:准确率(Accuracy);但当样本中的分类极度不均匀时,分类准确率并不能说明问题。(例如,100个观测样本中有95个0,5个1,全部预测为0的准确率有95%,已经很高了)
解决样本分布不均匀的办法:
• 重新抽样:过抽样/欠抽样
• 使用提升算法,Adabost
• 更改阈值
混淆矩阵
![](https://img.haomeiwen.com/i16496642/12b1a081106388ef.png)
;
准确率(Accuracy):
灵敏度/召回率(Sensitivity/Recall):
注:TPR体现分类模型对正样本的识别能力,TPR越高,表示模型对正样本的识别能力越强,即得到尽可能多的正样本。
特异度(Specificity):
注:(假阳性率)
精确度(Precision):
注:PPV越高,找到的正样本相对越多,得到尽可能纯的正样本;
TPR与PPV是此消彼长的关系。
假设1是违约客户,0是不违约客户:
![](https://img.haomeiwen.com/i16496642/d2a25ed3291ccf6d.png)
![](https://img.haomeiwen.com/i16496642/75dc4180375b5405.png)
情况1:;
;
情况2:;
;
情况1中,TPR高,找到的违约客户多,坏账减少,但损失一部分好客户,带来一定的利润损失。属于稳健性策略,宁可损失一些客户,也要降低坏账。
情况2中,PPV高,坏账高,但损失的好客户少,利润损失少。属于激进型策略,宁可坏账高一些,也要留住客户。
统计量:
,即
是tpr与ppv的调和平均数。只有当
时,
最大。
统计量:
,当
时,
最大。
注:、
都是越大越好。
常用的是
与
。
ROC曲线
x轴为FPR,y轴为TPR;
选择不同的阈值会产生不同的混淆矩阵,进而可算出对应的FPR、TPR。
![](https://img.haomeiwen.com/i16496642/b40c6fdaac14c114.gif)
ISO精度线
准确率acc、召回率tpr、假阳性率fpr三者关系:
A:所有样本个数;P:正例的个数;N:负例的个数;A=N+P;
pos=P/A:正例的占比;neg=N/A:负例的占比;
即:
这条斜线就是ISO精度线,截距随着acc改变,斜率不变为N/P,即负例比正例。
![](https://img.haomeiwen.com/i16496642/1be148e2fbf3b186.png)
最优acc值:截距最大时,对应acc值最大。
两式联合求解,可得到:
即:找到与ROC曲线相切的精度线,切点为最优阈值点,精度线与反斜线的交点为最优精度。
例如:
![](https://img.haomeiwen.com/i16496642/b4b6fab3dce7ed95.png)
AUC面积
ROC曲线下的面积
• AUC=1:一个能完美区分所有正负样例的分类器
• AUC=0.5:随机分类
• AUC范围:[0,1]
KS曲线
预测为正例的比例:
以rpp(或阈值)为横坐标,tpr、fpr分别为纵坐标划线,得到的曲线为KS曲线。
KS值为max(tpr-fpr)
![](https://img.haomeiwen.com/i16496642/4a73a9b7d79ef9eb.png)
网友评论