美文网首页
非平衡数据的处理方式

非平衡数据的处理方式

作者: yousa_ | 来源:发表于2020-07-17 15:49 被阅读0次

解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。
解决方式分为:

方法一:上采样与下采样
上采样是把小种类复制多份,下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。
上采样容易造成过拟合,下采样容易造成欠拟合

方法二:EasyEnsemble
本质上是集成学习:利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。

方法三:加权
除了采样和生成新数据等方法,我们还可以通过加权的方式来解决数据不平衡问题,即对不同类别分错的代价不同



横向是真实分类情况,纵向是预测分类情况,C(i,j)是把真实类别为j的样本预测为i时的损失,我们需要根据实际情况来设定它的值。
这种方法的难点在于设置合理的权重,实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则,还是需要具体问题具体分析。

相关文章

  • 非平衡数据的处理方式

    解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据...

  • Eviews读入非平衡面板数据(Repeated values

    Eviews读入平衡面板数据和非平衡面板数据的方式是一样的。 最近想用Eviews做非平衡面板数据的回归分析,在用...

  • IO与NIO

    1、阻塞与非阻塞 阻塞与非阻塞是描述进程在访问某个资源时,数据是否准备就绪的的一种处理方式。当数据没有准备就绪时:...

  • FMDB----2:多线程使用.

    注意:在 viewDidLoad引用. 数据库文件存储的路径 打开数据库并建表 多线程操作数据库时, 非事务的处理方式

  • 人工智能时代:BAT的数据加工厂是如何运作的

    人工智能时代相较于过去的数据处理方式,除了在数据量级上的差别之外,最大的差别是对非结构化数据的处理与运用。本文将介...

  • 缓慢变化维 - 理论与实践

    介绍 概念 应用场景 处理方式 使用 存在的问题 实践应用 基础数据 处理方式a 处理方式b 优劣对比 总结 介绍...

  • 非平稳面板数据导入eviews

    eviews非平衡面板数据录入的操作步骤,这个网页讲述很详细!https://m.book118.com/html...

  • 索引

    索引数据结构 平衡树(非二叉) b-tree或b+ tree 叶子节点是实际的数据,数据在数据库中按页存储在磁盘上...

  • 数据预处理

    常用的数据预处理方式 Standardization, or mean removal and variance ...

  • Day 10 突破汉译英的换主语

    一.什么是“平衡性语言”和“非平衡性语言”? 中文的主语较长,谓语和宾语较短,称为“非平衡性语言”; 英文的主谓宾...

网友评论

      本文标题:非平衡数据的处理方式

      本文链接:https://www.haomeiwen.com/subject/yrighktx.html