二分类模型指标

作者: Tulip0322 | 来源:发表于2019-03-03 20:01 被阅读0次

4.machine_learning_eval_metric_a
算法性能评价指标及分析
模型性能评估
数据分析中的准确率与召回率
分类模型评估指标
AI面试第六弹(评价指标)
机器学习评价指标
机器学习项目 - 二元分类器之MINST
二分类模型常用评价指标汇总
二分类模型指标

分类算法常用指标：准确率（Accuracy）；但当样本中的分类极度不均匀时，分类准确率并不能说明问题。（例如，100个观测样本中有95个0，5个1，全部预测为0的准确率有95%，已经很高了）

解决样本分布不均匀的办法：

• 重新抽样：过抽样/欠抽样

• 使用提升算法，Adabost

• 更改阈值

混淆矩阵

$P = TP+FN$ ； $N=FP+TN$

准确率(Accuracy)： $ACC=\frac{TP+TN}{P+N}$

灵敏度/召回率(Sensitivity/Recall)： $TPR=\frac{TP}{P}$

注：TPR体现分类模型对正样本的识别能力，TPR越高，表示模型对正样本的识别能力越强，即得到尽可能多的正样本。

特异度(Specificity)： $TNR=\frac{TN}{N}$

注： $1-TNR=\frac{FP}{N} =FPR$ (假阳性率)

精确度(Precision)： $PPV=\frac{TP}{TP+FP}$

注：PPV越高，找到的正样本相对越多，得到尽可能纯的正样本；

TPR与PPV是此消彼长的关系。

假设1是违约客户，0是不违约客户：

情况1

情况2

情况1： $TPR=\frac{80}{80+20} =0.8$ ； $PPV=\frac{80}{80+120} =0.4$ ；

情况2： $TPR=\frac{50}{50+50}=0.5$ ； $PPV=\frac{50}{50+30} =0.625$ ；

情况1中，TPR高，找到的违约客户多，坏账减少，但损失一部分好客户，带来一定的利润损失。属于稳健性策略，宁可损失一些客户，也要降低坏账。

情况2中，PPV高，坏账高，但损失的好客户少，利润损失少。属于激进型策略，宁可坏账高一些，也要留住客户。

$F_{1}$ 统计量： $\frac{2}{F_{1} } =\frac{1}{TPR} +\frac{1}{PPV}$ ，即 $F_{1}$ 是tpr与ppv的调和平均数。只有当 $\frac{1}{TPR} =\frac{1}{PPV}$ 时， $F_{1}$ 最大。

$F_{\beta }$ 统计量： $\frac{\beta ^2 +1}{F_{\beta } } =\frac{\beta ^2 }{TPR} +\frac{1}{PPV}$ ，当 $\frac{\beta ^2 }{TPR} =\frac{1}{PPV}$ 时， $F_{\beta }$ 最大。

注： $F_{1}$ 、 $F_{\beta }$ 都是越大越好。 $F_{\beta }$ 常用的是 $F_{2}$ 与 $F_{0.5}$ 。

ROC曲线

x轴为FPR，y轴为TPR；

选择不同的阈值会产生不同的混淆矩阵，进而可算出对应的FPR、TPR。

ISO精度线

准确率acc、召回率tpr、假阳性率fpr三者关系：

A：所有样本个数；P：正例的个数；N：负例的个数；A=N+P；

pos=P/A：正例的占比；neg=N/A：负例的占比；

$acc=\frac{TP+TN}{A} =\frac{TP}{A}+\frac{TN}{A}=\frac{TP}{P}*\frac{P}{A}+\frac{N-FP}{A}=tpr*pos+neg-\frac{FP}{N}*\frac{N}{A}=tpr*pos+neg-fpr*neg$

即： $tpr=\frac{acc-neg}{pos}+\frac{neg}{pos} *fpr$

这条斜线就是ISO精度线，截距随着acc改变，斜率不变为N/P，即负例比正例。

最优acc值：截距最大时，对应acc值最大。

$tpr=\frac{acc-neg}{pos}+\frac{neg}{pos} *fpr$

$tpr = 1- fpr$

两式联合求解，可得到： $tpr = \frac{acc}{pos+neg} =acc$

即：找到与ROC曲线相切的精度线，切点为最优阈值点，精度线与反斜线的交点为最优精度。

例如：

AUC面积

ROC曲线下的面积

• AUC=1：一个能完美区分所有正负样例的分类器

• AUC=0.5：随机分类

• AUC范围：[0,1]

KS曲线

预测为正例的比例： $rpp=\frac{TP+FP}{P+N}$

以rpp（或阈值）为横坐标，tpr、fpr分别为纵坐标划线，得到的曲线为KS曲线。

KS值为max(tpr-fpr)

4.machine_learning_eval_metric_a
1.机器学习指标ROC与AUC 1.1ROC与AUC AUC是一种模型分类指标，且仅仅是二分类模型的评价指标。AU...
算法性能评价指标及分析
模型评价指标总结：模型评价指标一、图像分类二、目标检测 1. FPPW和FPPI 两者都侧重考察FP（Fals...
模型性能评估
目录 1、模型评估指标 2、总结 1、模型评估指标 2、总结：本文以思维导图的方式罗列了二分类中模型评估中常用的指...
数据分析中的准确率与召回率
今天写两个评估二分类模型的实用指标：准确率与召回率。那么什么是二分类模型呢？就是判断一个事件是否逻辑的模型，比如银...
分类模型评估指标
本篇先考虑二分类问题，记录常用到的评估指标。混淆矩阵假设在训练之前和预测之后，一个样本的标记是确定的两个类别，...
AI面试第六弹(评价指标)
一、分类问题指标分类问题的评价指标多是基于以下混淆矩阵·真实值是positive，模型认为是positive的数...
机器学习评价指标
1.机器学习常见评价指标为什么要用AUC作为二分类模型的评价指标呢？为什么不直接通过计算准确率来对模型进行评价呢...
机器学习项目 - 二元分类器之MINST
本文通过经典数据集MINST（手写0~9图片集），介绍二元分类的主要流程、预测指标，以及不同模型分类效果对比。数...
二分类模型常用评价指标汇总
有很多指标可以衡量机器学习模型的效果，不同的任务使用的评价指标也不尽相同。本文对二分类任务的评价指标加以总结。全文...
二分类模型指标
分类算法常用指标：准确率（Accuracy）；但当样本中的分类极度不均匀时，分类准确率并不能说明问题。（例如，10...