美文网首页
在机器学习中处理不平衡数据集(翻译)p1

在机器学习中处理不平衡数据集(翻译)p1

作者: mashagua | 来源:发表于2019-12-15 13:41 被阅读0次

    原文来自:https://towardsdatascience.com/handling-imbalanced-datasets-in-machine-learning-7a0e84220f28

    问题背景介绍

    假设您在给定的公司中工作,并要求您创建一个模型,该模型根据您可使用的各种度量来预测产品是否有缺陷。您决定使用自己喜欢的分类器,对数据进行训练,然后瞧:您将获得96.2%的准确性!您的老板很惊讶,决定在不进行任何进一步测试的情况下使用您的模型。几周后,他进入您的办公室,突显了您的模型的无用之处。实际上,您创建的模型从生产开始就没有发现任何有缺陷的产品。经过一些调查,您发现贵公司生产的产品中大约只有3.8%有缺陷,并且您的模型始终会回答“无缺陷”,从而达到96.2%的准确性。您获得的“原始”结果是由于您使用的数据集不平衡造成的。本文的目的是回顾可用于解决不平衡类的分类问题的不同方法。

    大纲

    首先,我们将概述有助于评估“navier behivor”的不同评估指标。然后,我们将讨论重构数据集的一整套方法,并证明这些方法可能会产生误导。最后,我们将证明,在大多数情况下,重新解决问题是最好的解决方法。用(∞)符号表示的某些小节包含更多数学细节,可以跳过而不会影响该帖子的整体理解。还要注意,在以下大部分内容中,我们将考虑两个类别的分类问题,同时,这些也可以扩展到多分类。

    检测“naive behaviour”

    在第一部分中,我们想提醒一下评估经过训练的分类器的不同方法,以确保检测到任何类型的“naive behaviour”。正如我们在引言示例中看到的那样,准确性虽然是一项重要且不可避免的指标,但可能会产生误导,因此应谨慎使用,并与其他指标一起使用。让我们看看可以使用哪些评价指标。

    混淆矩阵,精确度,召回率,F1

    混淆矩阵是处理分类问题时始终应使用的一个好而简单的度量标准。该指标提供了模型运行情况的有趣概述。因此,这是任何分类模型评估的一个很好的起点。在下图中,我们总结了可以从混淆矩阵得出的大多数指标

    让我们简要描述这些指标。模型的准确性基本上是正确预测的总数除以预测的总数。类的精度定义当模型回答某个点属于该类时结果的可信度。召回一个类表示模型能够很好地检测到该类。一类的F1分数由精度和查全率的调和平均值(2×精度×查全率/(精度+查全率))给出,它将一个类别的查明率和查全率结合在一起。

    对于给定的类,召回率和精度的不同组合具有以下含义:

    高召回率+高精度:模型可以完美地处理各种分类

    召回率低,精度高:该模型无法很好地检测到类别,但是当它确实存在时,是高度可信赖的

    召回率高+精度低:可以很好地检测类别,但是模型中也包含其他类别的点

    召回率低+精度低:模型处理不佳

    相关文章

      网友评论

          本文标题:在机器学习中处理不平衡数据集(翻译)p1

          本文链接:https://www.haomeiwen.com/subject/tfgeictx.html