美文网首页数据分析
[翻译]处理样本不均衡的8个方法

[翻译]处理样本不均衡的8个方法

作者: 井底蛙蛙呱呱呱 | 来源:发表于2019-07-29 17:28 被阅读0次

    本文主要翻译自 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset.
    当某一类别的数据量远大于另一类别的样本数量时,我们就称其样本不均衡。数据类别样本本不均衡是机器学习中非常常见的一个问题,最常见的例子可能莫过于异常检测了。在异常检测中绝大部分样本都是正常类型的,只有极少部分属于异常。

    此外,当我们数据中某一类别(这里及后面都以二分类为例)的数据量比例大于90%时,我们模型的准确率可能很简单的达到较好的准确率(90%以上),但是此时并不能说明我们的模型好,因为此时模型的预测结果可能只输出一个类别,而即便如此,其准确率依然能达到90%以上。很明显,这显然不是我们想要的。

    下面我们将讨论8个用来解决数据不均衡的方法。

    1、收集更多的数据

    咋一听可能会觉得这可能是废话,但是事实上收集更多的数据这一方法常常被忽略。收集更多的数据不仅能有效解决过拟合问题,收集更多的少类别样本更能够解决数据不均衡的问题。所以,遇到样本不均衡问题时,我们应该首先思考能否收集更多的数据。

    2、改变模型评估方法

    如上面说到的,当类别样本不均衡的时候,使用准确率作为评估标准往往很容易产生误导。此时我们可以采用别的评估方法,如kappa系数,ROC曲线,混淆矩阵,Recall,Precision,F1 Score等,更多可参见 Classification Accuracy is Not Enough: More Performance Measures You Can Use.

    3、数据集重采样

    通过重采样,我们可以得到更多的数据样本已得到一个平衡的数据集。常用的采样方法有两种:

    • (1)复制样本数较少的类别的样本,这种方法称为over-sampling;
    • (2)删除样本数量较多的类别的样本,这种方法称为under-sampling.

    这些方法都很简单而且易于实现。通常可以将这两种方法都进行尝试,看哪种方法得到的结果更好来做决定采用哪种方法。更多的可以参考 Oversampling and undersampling in data analysis.

    一些经验:

    • 当数据量较多的时候优先尝试under-sampling方法;
    • 当数据量较少的时候优先尝试over-sampling方法;
    • 使用随机或非随机(stratified,分层)采样策略;
    • 尝试不同的采样比例而非固定的1:1.

    4、合成样本

    一个简单的合成样本的方法是随机的从数据量少的类别实例中随机挑选属性来生成样本。

    你可以在数据集中凭经验对它们进行采样,或者也可以使用像Naive Bayes这样的方法,它可以在反向运行时独立地对每个属性进行采样。你将拥有更多不同的数据,但可能无法保留属性之间的非线性关系。

    当然也可以使用系统算法生成合成样本。最流行的此类算法称为SMOTE (Synthetic Minority Over-sampling Technique). 正如它的名字一样,SMOTE是一个over-sampling方法,他通过样本数据较少类别的数据来合成新的数据而非简单的复制数据。该算法选择两个或更多个类似的实例(使用距离测量),并且对于差异内的相邻实例一次随机扰动实例一个属性。更多的关于SMOTE算法的内容,可以参考论文 SMOTE: Synthetic Minority Over-sampling Technique.

    在Python中,在 UnbalancedDataset包中实现了SMOTE算法。

    5、尝试不同的算法

    不同算法可能适用于不同的问题,因此对于同一个问题可以尝试使用不同的算法试试。话虽如此,决策树通常在不平衡的数据集上表现良好,用于创建树的类变量的拆分规则可有效解决这个问题。

    6、使用罚分模型

    附加罚分模型使用相同的算法但是提供了不同的视角。对于样本数较少的类别,罚分模型添加额外的损失(加大损失),这使得模型更加重视少样本类别的分类。

    通常,类惩罚或权重的处理专用于学习算法。存在惩罚版本的算法,例如惩罚的SVM和惩罚的LDA。

    当你的算法无法使用重采样来解决数据不平衡问题或结果很差时,使用罚分模型是非常有必要的。他提供了另一种处理数据不均衡的方法。然而,设置罚分矩阵很复杂,常常需要尝试很多次才能找到最佳策略。

    7、尝试以更多不同的视角来看待样本不均衡问题

    现在有很多关于样本不均衡问题的研究,他们都有自己的算法、评估方法、或者技术等。从不同的角度来思考数据不均衡问题可能带给我们不一样的结果。

    两个可能需要考虑的是异常检测和变化检测。

    异常检测是罕见事件的检测,这可能是由于偶然事件或由系统调用序列指示的程序的恶意活动而指示的机器故障。与正常操作相比,这些事件很少见。这种思维转变将次要类别视为异常类,这可能有助于考虑分离和分类样本的新方法。

    变化检测类似于异常检测,除了寻找异常之外,它正在寻找变化或差异。这可能是使用模式或银行交易所观察到的用户行为的变化。

    这两种转变都对分类问题采取了更为实际的立场,可能会为我们提供一些思考问题的新方法,也许还有一些尝试的技巧。

    8、更具创造力

    更加深入的思考所遇到的问题然后将问题分成一个个更容易解决的小问题。可以参考“In classification, how do you handle an unbalanced training set?”和 “Classification when 80% of my training set is of one class“.

    小结

    这些方法都不需要太多的数学理论知识,你所需要做的仅仅只是挑出一种方法,然后开始尝试,直到找到最好的方法。

    相关文章

      网友评论

        本文标题:[翻译]处理样本不均衡的8个方法

        本文链接:https://www.haomeiwen.com/subject/majbrctx.html