非平衡数据的处理方式

作者: yousa_ | 来源:发表于2020-07-17 15:49 被阅读0次

非平衡数据的处理方式
Eviews读入非平衡面板数据（Repeated values
IO与NIO
FMDB----2:多线程使用.
人工智能时代：BAT的数据加工厂是如何运作的
缓慢变化维 - 理论与实践
非平稳面板数据导入eviews
索引
数据预处理
Day 10 突破汉译英的换主语

解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权，比如利用采样与加权等方法。为了方便起见，我们把数据集中样本较多的那一类称为“大众类”，样本较少的那一类称为“小众类”。
解决方式分为：

方法一：上采样与下采样
上采样是把小种类复制多份，下采样是从大众类中剔除一些样本，或者说只从大众类中选取部分样本。
上采样容易造成过拟合，下采样容易造成欠拟合

方法二：EasyEnsemble
本质上是集成学习：利用模型融合的方法（Ensemble）：多次下采样（放回采样，这样产生的训练集才相互独立）产生多个不同的训练集，进而训练多个不同的分类器，通过组合多个分类器的结果得到最终的结果。

方法三：加权
除了采样和生成新数据等方法，我们还可以通过加权的方式来解决数据不平衡问题，即对不同类别分错的代价不同

横向是真实分类情况，纵向是预测分类情况，C(i,j)是把真实类别为j的样本预测为i时的损失，我们需要根据实际情况来设定它的值。
这种方法的难点在于设置合理的权重，实际应用中一般让各个分类间的加权损失值近似相等。当然这并不是通用法则，还是需要具体问题具体分析。