美文网首页
分类的评判标准F-score

分类的评判标准F-score

作者: 酥脆海苔饼干 | 来源:发表于2019-05-18 10:29 被阅读0次

分类方法常用的评估模型好坏的方法.

0.预设问题

假设我现在有一个二分类任务,是分析100封邮件是否是垃圾邮件,其中不是垃圾邮件有65封,是垃圾邮件有35封.模型最终给邮件的结论只有两个:是垃圾邮件与 不是垃圾邮件.

经过自己的努力,自己设计了模型,得到了结果,分类结果如下:

  • 不是垃圾邮件70封(其中真实不是垃圾邮件60封,是垃圾邮件有10封)
  • 是垃圾邮件30封(其中真实是垃圾邮件25封,不是垃圾邮件5封)

现在我们设置,不是垃圾邮件.为正样本,是垃圾邮件为负样本
我们一般使用四个符号表示预测的所有情况:

  • TP(真阳性):正样本被正确预测为正样本,例子中的60
  • FP(假阳性):负样本被错误预测为正样本,例子中的10
  • TN(真阴性):负样本被正确预测为负样本,例子中的25
  • FN(假阴性):正样本被错误预测为负样本,例子中的5

1.评价方法介绍

先看最终的计算公式:

image

1.Precision(精确率)

关注预测为正样本的数据(可能包含负样本)中,真实正样本的比例
计算公式

image

例子解释:对上前面例子,关注的部分就是预测结果的70封不是垃圾邮件中真实不是垃圾邮件占该预测结果的比率,现在Precision=60/(600+10)=85.71%

2.Recall(召回率)

关注真实正样本的数据(不包含任何负样本)中,正确预测的比例
计算公式

image

例子解释:对上前面例子,关注的部分就是真实有65封不是垃圾邮件,这其中你的预测结果中有多少预测正确了,Recall=60/(60+5)=92.31%

3.F-score中β值的介绍

β是用来平衡Precision,Recall在F-score计算中的权重,取值情况有以下三种:

  • 如果取1,表示Precision与Recall一样重要
  • 如果取小于1,表示Precision比Recall重要
  • 如果取大于1,表示Recall比Precision重要

一般情况下,β取1,认为两个指标一样重要.此时F-score的计算公式为:

image

前面计算的结果,得到Fscore=(20.85710.9231)/(0.8571+0.9231)=88.89%

3.其他考虑
预测模型无非就是两个结果

  • 准确预测(不管是正样子预测为正样本,还是负样本预测为负样本)
  • 错误预测

那我就可以直接按照下面的公式求预测准确率,用这个值来评估模型准确率不就行了

image

那为什么还要那么复杂算各种值.理由是一般而言:负样本远大于正样本。

可以想象,两个模型的TN变化不大的情况下,但是TP在两个模型上有不同的值,TN>>TP是不是可以推断出:两个模型的(TN+TP)近似相等.这不就意味着两个模型按照以上公式计算的Accuracy近似相等了.那用这个指标有什么用!!!

所以说,对于这种情况的二分类问题,一般使用Fscore去评估模型.

需要注意的是:Fscore只用来评估二分类的模型,Accuracy没有这限制
3.个人理解
(1)自己理解 + 我老师的说法就是,准确率就是找得对,召回率就是找得全。
(2)大概就是你问问一个模型,这堆东西是不是某个类的时候,准确率就是 它说是,这东西就确实是的概率吧,召回率就是, 它说是,但它漏说了(1-召回率)这么多。
(3)准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。
(4)如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。s所以,在两者都要求高的情况下,可以用F1来衡量。

相关文章

  • 分类的评判标准F-score

    分类方法常用的评估模型好坏的方法. 0.预设问题 假设我现在有一个二分类任务,是分析100封邮件是否是垃圾邮件,其...

  • 性能评价指标(Precision, Recall, F-scor

    转自:CSDN博客原文 一:Precision, Recall, F-score 信息检索、分类、识别、翻译等领域...

  • 分类器指标

    二值分类器指标: precision,recall,F-score[^1],以及我们今天要讨论的ROC和AUC R...

  • 监督学习分类问题常用的评判标准

    一、ROC曲线、AUC、Precision、Recall以及F-measure二分类问题的预测结果可能正确,也可能...

  • 异化的沟通方式

    道德评判:用道德标准评判人,将人分类,好人或坏人,正常或不正常,负责任或不负责任,聪明或愚蠢等等。 进行比较:在比...

  • Branchynet: Fast inference via e

    paper 关键词:提前结束 收益:在保持性能的前提下,加速网络推断速度;削减梯度消失现象。 评判标准:分类信息熵...

  • 艺术的评判标准

    上午看一个画画的朋友说怎么判断是不是好画这个事儿是个“谜思”以前也有朋友跟我唠过这个事儿,这玩意儿确实不好整明白,...

  • 放下评判标准

    看看天气很好,准备洗车。一路开过去发现几个好些的洗车店都是爆满,还是去学校附近的店吧。 原来的小伙...

  • 代码评判标准

    坏代码常见问题 命名不规范 类设计不合理 分层不明确 没有模块化概念 代码结构混乱 高度耦合 好代码的标准 可维护...

  • 放下评判标准

    今晚的静心,察觉到过去在工作中对别人有很多的评判标准。有时别人的某些做法的确很过分,有些事情的发生也在无意识强加自...

网友评论

      本文标题:分类的评判标准F-score

      本文链接:https://www.haomeiwen.com/subject/lubzaqtx.html