美文网首页ML&DL
处理不平衡数据的基本方法

处理不平衡数据的基本方法

作者: cherryleechen | 来源:发表于2019-05-03 16:45 被阅读9次
  • 使用正确的评价指标
    如ROC-AUC。
  • 重新采样训练集
    • 欠采样
      常常当数据量足够多时使用这个方法。通过在多数类样本中随机选择和少数类样本相同数量的样本。
      可多次放回地抽取不同的训练集,训练不同的分类器进行组合,会减少信息的损失。
    • 过采样
      常常当数据量不足时会使用这个方法。通过重复、bootstrap或SMOTE数据合成等方法生成新的数据。运气好的话能分对很多,否则会分错很多。可在每次生成新数据点的时候加入轻微的随机扰动。

有时,结合使用欠采样和过采样也会有很好的效果。采样的优点是简单;缺点是过采样会反复出现一些样本,可能会出现一定程度的过拟合;欠采样会丢失数据,只学到了总体模式的一部分。

  • 修改算法
    比如修改模型中的代价函数部分,使得代价函数中分错少数类样本的惩罚权重大于分错多数类样本的惩罚权重。
    或者使用其他的机器学习方法,神经网络算法通常对不平衡数据很无奈。

相关文章

  • 处理不平衡数据的基本方法

    使用正确的评价指标如ROC-AUC。 重新采样训练集欠采样常常当数据量足够多时使用这个方法。通过在多数类样本中随机...

  • 大数据采集、清洗、处理:使用MapReduce进行离线数据分析完

    1 大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: ...

  • 程序设计

    1、数据基类 管理数据 2、基本信息 公共方法,公共UI 3、逻辑处理 4、界面处理 可分模块: 数据,UI,...

  • 不平衡数据的处理

    解决方法: 通过采样的方法: 少数数据过采样 多数数据欠采样 生成少数数据:SMOTE 使用分类方法解决欠采样: ...

  • 网络编程和数据处理

    网络编程 主要是学会如何请求网络数据,基本使用Java中的方法。(网络请求必须异步处理) 数据处理 XML格式SA...

  • 处理不平衡数据:SMOTE

    SMOTE原理:https://www.jianshu.com/p/ecbc924860afimblearn库的使...

  • 不平衡样本的处理方法

    欠采样: 从多数类的样本中随机选择样本; 过采样: 复制少数类样本扩大数据集, smote算法及其衍生; 代价敏感...

  • Excel简明手册

    从Excel 的基本处理 和函数进阶角度讲述 excel的使用方法. 基本设置与数据 快速访问栏 清除 格式刷 自...

  • 12_Geoist之位场数据处理模块1

    内容摘要:书接上文,在了解了网格数据的基本格式后,今天我们来聊聊位场数据处理的基本方法。主要内容包括:如何计算正常...

  • 随机数据集的构建与汇总处理丨数析学院

    课程简介 本节将使用随机数生成函数自行构建婴儿名字数据框,并介绍基本的数据框处理方法。数据来源 - 使用随机数生成...

网友评论

    本文标题:处理不平衡数据的基本方法

    本文链接:https://www.haomeiwen.com/subject/bkyonqtx.html