美文网首页
四、4.2数据分析基础--混淆矩阵

四、4.2数据分析基础--混淆矩阵

作者: 数据与风控 | 来源:发表于2019-09-30 16:22 被阅读0次

混淆矩阵是理解分类问题,和衡量分类问题解决效果的一个方法,具体如下(我们仅以二分类举例,实际上也可以有多个label类别的多分类问题):

在实际分析中,我们的label(实际的类别)有两种情况1或0,对于结果的预测也可能有两种情况(1或0),那么我们在建立某个模型对数据进行分析预测的时候,结果就可能有四种。(这里正规的方法是label标记为True or False,预测结果标记为Positive or Negtive,但是我觉得我的方法更好理解)。四种情况如下(我们用是否作弊来进行举例):

a)真实数据是1(作弊),我们预测的结果也是1(作弊)(上图蓝色圆圈中标记1)

b)真实数据是0(非作弊),我们预测的结果也是0(非作弊)(上图蓝色圆圈中标记2)

c)真实数据是1(作弊),我们预测的结果是0(非作弊)(模型漏召)(上图蓝色圆圈中标记4)

d)真实数据是0(非作弊),我们预测的结果是1(作弊)(模型误伤)(上图蓝色圆圈中标记3)

那么,衡量我们分类问题解决的好or不好,就可以用三个指标来衡量:

a)recall(召回率):也就是我们抓到的作弊case,占全部作弊case的比例,或者说我们解决了多大比例的作弊问题。

具体算法:recall = 蓝圈1/( 蓝圈1+ 蓝圈4)

b)precision(精确率):也就是我们抓到的,判断为作弊的case中,真实的作弊case的占比。或者说我们解决这个问题,付出了多少代价(实际业务中,很多人把这个指标叫做准确率,其实是不严谨的,但是大家貌似已经形成习惯)

具体算法:precision=蓝圈1/( 蓝圈1+ 蓝圈3)

c)Acurracy(准确率):也就是我们判断正确的,除以全部待预测的数据的比值,这个数据不常用

具体算法:( 蓝圈1+ 蓝圈2)/( 蓝圈1+ 蓝圈2+ 蓝圈3+ 蓝圈4)

实际业务中一般使用recall和precision来判断业务效果

因为准确率和召回率是相悖的,也就是一个提高必定会以另一个下降为代价,所以另外还有一个综合衡量指标F1,用比较均衡的方式来代表模型的综合效果,具体算法为:

F1 =2* (recall*precision)/(recall+precision)

相关文章

  • 四、4.2数据分析基础--混淆矩阵

    混淆矩阵是理解分类问题,和衡量分类问题解决效果的一个方法,具体如下(我们仅以二分类举例,实际上也可以有多个labe...

  • 分类评价指标

    1. 混淆矩阵(Confusion matrix) 定义: 混淆矩阵是数据科学、数据分析和机器学习中分类模型预测结...

  • 在图像分类中如何使用一行代码提升逼格

    其实混淆矩阵图在python的数据分析、机器学习中常用的scikit-learn库中就已经封装了制作混淆矩阵图的功...

  • 混淆矩阵confusion_matrix函数

    1.混淆矩阵 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类...

  • MARK一些资料

    1. 基于常见数据集的模型天梯 2. 混淆矩阵(confusion matrix) 在机器学习领域,混淆矩阵(co...

  • 2018-04-21FCN结果分析

    一、混淆矩阵confusion matrix 1,混淆矩阵 2,分类器评估方法:准确率和混淆矩阵*** 使用混淆矩...

  • (二十八)项目实战|交易数据异常检测(三)-python数据分析

    文章原创,最近更新:2018-06-4 1.混淆矩阵 课程来源: python数据分析与机器学习实战-唐宇迪 课程...

  • 机器学习中的混淆矩阵

    让混淆矩阵不再混淆 混淆矩阵是用于总结分类算法性能的技术。如果每个类中的样本数量不等,或者数据集中有两个以上的类,...

  • 人工智能学习路径

    一、数学基础 数据分析 概率论 线性代数与矩阵 二、Python基础 Python基础语法 Python常用库 P...

  • 数据分析基础—4.2 数据清洗

    在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果...

网友评论

      本文标题:四、4.2数据分析基础--混淆矩阵

      本文链接:https://www.haomeiwen.com/subject/jbchpctx.html