Impute with imbalanced training

作者: joepayne | 来源:发表于2016-07-28 16:52 被阅读68次

Impute with imbalanced training
怎么使用Python安装第三方库imblearn
[译]在使用过采样或欠采样处理类别不均衡数据后，如何正确做交叉验
在机器学习中处理不平衡数据集（翻译）p1
关于imbalanced data
NC | 在不均衡的饮食中进行代谢cross-feeding可以
如何处理分类和回归问题数据不平衡问题
tidymodels包的利用KNN进行插补
[翻译]处理样本不均衡的8个方法
SimpleImputer 中fit和transform方法的简

关于imbalanced training data 主要分为两种，一种是基于class 的 imbalance ;另一种是基于特征的。前者也是我们通常所遇到的一种，下面就基于class 的imbalance 做一下描述。

对于基于class 的imbalanced training data 的处理通常是通过sampling的方式，就正样本为小样本，负样本为大样本为例来说明：
**random undersampling / oversampling **

对于 random undersampling 主要通过随机抽样的方式减少负样本的量，使正负样本得到平衡。
它的缺点非常明显。其一，它会使负样本的信息大量丢失；其二，当训练样本量比较少的时候，这样明显不不合理。所以如果要使用这种方法必须得考虑两个问题，一，训练样本量；二，负样本的信息重要与否。

对于 random oversampling 主要通过随机抽样的方式复制正样本，使正负样本得到平衡。
它的缺点也非常明显，它主要会产生过拟合情况，相比undersampling在某种程度上严重度要稍微轻一些。

**clustered undersampling **

对于 clustered undersampling 主要是基于聚类的方法，比方说k-means，来找出其中代表性的点（聚类的中心点）作为负样本，以此来减少负样本的量，达到正负平衡。它并不会丢失很多负样本的信息，它只是抽取了负样本中的主要信息。

下面主要针对oversampling具体做一下介绍：

**KNN oversampling **。主要是基于KNN的思想生成新的正样本点，取正样本点与其K个最近样本点中间某个点作为新点，进而达到正负平衡。
x(new) = x(old) + ( x(nearest) - x(old) ) * a

它的主要缺陷在于，容易产生overlapping 样本，即如果最近的那个点是负样本，那么，新生成的点就会趋向负样本，尽管标记是正样本。overlapping的点也叫difficult studying 的点，也就border 点。

**Border oversampling **。基于KNN oversampling ，它主要解决overlapping问题。它只选择K最近样本点集中负样本量大于正样本量的点进行sampling 。

它的缺点是正样本信息没有达到饱和。

**ADA oversampling **。基于KNN oversampling ，它是介于KNN oversampling 与 Border oversampling 之间的一种方法，它对所有正样本点都做sampling处理，只不过它是根据K个近邻点中正负样本的比例来进行sampling，如果负样本多就多sampling ，如果负样本少就少sampling。