美文网首页
二分类模型指标

二分类模型指标

作者: Tulip0322 | 来源:发表于2019-03-03 20:01 被阅读0次

        分类算法常用指标:准确率(Accuracy);但当样本中的分类极度不均匀时,分类准确率并不能说明问题。(例如,100个观测样本中有95个0,5个1,全部预测为0的准确率有95%,已经很高了)

        解决样本分布不均匀的办法:

        重新抽样:过抽样/欠抽样

        使用提升算法,Adabost

        更改阈值


混淆矩阵

                                                            P = TP+FNN=FP+TN

准确率(Accuracy):ACC=\frac{TP+TN}{P+N}

灵敏度/召回率(Sensitivity/Recall):TPR=\frac{TP}{P}

注:TPR体现分类模型对正样本的识别能力,TPR越高,表示模型对正样本的识别能力越强,即得到尽可能多的正样本。

特异度(Specificity):TNR=\frac{TN}{N}

注:1-TNR=\frac{FP}{N} =FPR(假阳性率)

精确度(Precision):PPV=\frac{TP}{TP+FP}

注:PPV越高,找到的正样本相对越多,得到尽可能纯的正样本;

       TPR与PPV是此消彼长的关系。


假设1是违约客户,0是不违约客户:

情况1 情况2

情况1:TPR=\frac{80}{80+20} =0.8PPV=\frac{80}{80+120} =0.4

情况2:TPR=\frac{50}{50+50}=0.5PPV=\frac{50}{50+30} =0.625

情况1中,TPR高,找到的违约客户多,坏账减少,但损失一部分好客户,带来一定的利润损失。属于稳健性策略,宁可损失一些客户,也要降低坏账。

情况2中,PPV高,坏账高,但损失的好客户少,利润损失少。属于激进型策略,宁可坏账高一些,也要留住客户。


F_{1} 统计量:\frac{2}{F_{1} } =\frac{1}{TPR} +\frac{1}{PPV} ,即F_{1} 是tpr与ppv的调和平均数。只有当\frac{1}{TPR} =\frac{1}{PPV} 时,F_{1} 最大。

F_{\beta } 统计量:\frac{\beta ^2 +1}{F_{\beta } } =\frac{\beta ^2 }{TPR} +\frac{1}{PPV} ,当\frac{\beta ^2 }{TPR} =\frac{1}{PPV} 时,F_{\beta } 最大。

注:F_{1} F_{\beta } 都是越大越好。常用的是F_{2} F_{0.5}

ROC曲线

x轴为FPR,y轴为TPR;

选择不同的阈值会产生不同的混淆矩阵,进而可算出对应的FPR、TPR。

ISO精度线

准确率acc、召回率tpr、假阳性率fpr三者关系:

A:所有样本个数;P:正例的个数;N:负例的个数;A=N+P;

pos=P/A:正例的占比;neg=N/A:负例的占比;

acc=\frac{TP+TN}{A} =\frac{TP}{A}+\frac{TN}{A}=\frac{TP}{P}*\frac{P}{A}+\frac{N-FP}{A}=tpr*pos+neg-\frac{FP}{N}*\frac{N}{A}=tpr*pos+neg-fpr*neg

即:tpr=\frac{acc-neg}{pos}+\frac{neg}{pos}  *fpr

这条斜线就是ISO精度线,截距随着acc改变,斜率不变为N/P,即负例比正例。

最优acc值:截距最大时,对应acc值最大。

                                                tpr=\frac{acc-neg}{pos}+\frac{neg}{pos}  *fpr   

                                                tpr = 1- fpr

两式联合求解,可得到:tpr = \frac{acc}{pos+neg} =acc

即:找到与ROC曲线相切的精度线,切点为最优阈值点,精度线与反斜线的交点为最优精度。

例如:

AUC面积

ROC曲线下的面积

AUC=1:一个能完美区分所有正负样例的分类器

AUC=0.5:随机分类

AUC范围:[0,1]

KS曲线

预测为正例的比例:rpp=\frac{TP+FP}{P+N}

以rpp(或阈值)为横坐标,tpr、fpr分别为纵坐标划线,得到的曲线为KS曲线。

KS值为max(tpr-fpr)

相关文章

  • 4.machine_learning_eval_metric_a

    1.机器学习指标ROC与AUC 1.1ROC与AUC AUC是一种模型分类指标,且仅仅是二分类模型的评价指标。AU...

  • 算法性能评价指标及分析

    模型评价指标总结:模型评价指标 一、图像分类 二、目标检测 1. FPPW和FPPI 两者都侧重考察FP(Fals...

  • 模型性能评估

    目录 1、模型评估指标 2、总结 1、模型评估指标 2、总结:本文以思维导图的方式罗列了二分类中模型评估中常用的指...

  • 数据分析中的准确率与召回率

    今天写两个评估二分类模型的实用指标:准确率与召回率。那么什么是二分类模型呢?就是判断一个事件是否逻辑的模型,比如银...

  • 分类模型评估指标

    本篇先考虑二分类问题,记录常用到的评估指标。 混淆矩阵 假设在训练之前和预测之后,一个样本的标记是确定的两个类别,...

  • AI面试第六弹(评价指标)

    一、分类问题指标 分类问题的评价指标多是基于以下混淆矩阵·真实值是positive,模型认为是positive的数...

  • 机器学习评价指标

    1.机器学习常见评价指标 为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢...

  • 机器学习项目 - 二元分类器之MINST

    本文通过经典数据集MINST(手写0~9图片集),介绍二元分类的主要流程、预测指标,以及不同模型分类效果对比。 数...

  • 二分类模型常用评价指标汇总

    有很多指标可以衡量机器学习模型的效果,不同的任务使用的评价指标也不尽相同。本文对二分类任务的评价指标加以总结。全文...

  • 二分类模型指标

    分类算法常用指标:准确率(Accuracy);但当样本中的分类极度不均匀时,分类准确率并不能说明问题。(例如,10...

网友评论

      本文标题:二分类模型指标

      本文链接:https://www.haomeiwen.com/subject/kvxyuqtx.html