关于imbalanced data

作者: YPY_93a9 | 来源:发表于2019-01-12 18:18 被阅读8次

关于imbalanced data
Impute with imbalanced training
[译]在使用过采样或欠采样处理类别不均衡数据后，如何正确做交叉验
不平衡数据的训练方法
怎么使用Python安装第三方库imblearn
在机器学习中处理不平衡数据集（翻译）p1
NC | 在不均衡的饮食中进行代谢cross-feeding可以
如何处理分类和回归问题数据不平衡问题
[翻译]处理样本不均衡的8个方法
androidQ 关于存储权限相册图片

处理不均衡数据，有如下几种方式：

1. 选择对不均衡数据比较友好的metrics（比如f1, roc、auc）：

关于metrics有如下几种：

1）accuracy

accuracy = (TP+TN)/(TP+FP+TN+FN)

" accuracy是最常见也是最基本的evaluation metric。但在binary classification 且正反例不平衡的情况下，尤其是我们对minority class 更感兴趣的时候，accuracy评价基本没有参考价值。什么fraud detection（欺诈检测），癌症检测，都符合这种情况。例如：

在测试集里，有100个sample，99个反例，只有1个正例。如果我的模型不分青红皂白对任意一个sample都预测是反例，那么我的模型的accuracy是正确的个数／总个数 = 99/100 = 99%

这个属于很不友好的了。

2） precision & recall & F1

precision = TP/(TP+FP) recall = TP/(TP+FN)

这两者处于trade-off的关系

F1 = 2*precision*recall / (precision + recall)

F1 score均衡了precision和recall，是个还行的选择把。

3) ROC&AUC

跟ROC息息相关的两个变量sensitivity和speciality

sensitivity = recall = true positive rate

specificity = 1- false positive rate

roc曲线

上图是A、B两个不同分类器的roc曲线，没给定一个分类器的判定阈值，就能产生一个（fpr,tpr）点，roc曲线就是把这些点连起来。

曲线下的面积叫auc, 面积越大分类越好。

对于不均衡数据roc, auc是个不错的选择。

2. 重抽样

1）随机欠抽样：

随机删除多数类的数据

会带来潜在有效信息被删除的问题。欠抽样选择的数据可能是偏差样本，无法准确代表总体。因此，会导致在测试集中表现欠佳。

2）随机过抽样：

随机复制少数类的实例来增加少数类的数量

一般来说，过抽样表现好于欠抽样。然而，由于过抽样复制了多遍少数类数据，导致过拟合(over-fitting)的可能性变大。

3) 基于聚类的过抽样

基于聚类的过抽样是将k-means聚类算法分别应用在少数类和多数类中，识别出数据集中不同簇(cluster)。随后，通过对每个簇过抽样来确保多数类和少数类的簇中实例的数目相等。

这也会导致过拟合。

4）合成少数类过抽样(SMOTE)

SMOTE避免了复制少数类导致的过拟合问题。用少数类的子集来创造新的合成的相似少数类实例。将这些合成的实例加入原有数据集，丰富少数类的数据。

设训练集的一个少数类的样本数为 TT ，那么SMOTE算法将为这个少数类合成 NTNT 个新样本。这里要求 NN 必须是正整数，如果给定的 N<1N<1 那么算法将“认为”少数类的样本数 T=NTT=NT ，并将强制 N=1N=1 。

考虑该少数类的一个样本 ii ，其特征向量为 xi,i∈{1,...,T}xi,i∈{1,...,T} ：

1. 首先从该少数类的全部 T 个样本中找到样本 xi 的 k 个近邻（例如用欧氏距离），记为 xi(near),near∈{1,...,k} xi(near),near∈{1,...,k} ；

2. 然后从这 kk 个近邻中随机选择一个样本 xi(nn)xi(nn) ，再生成一个 00 到 11 之间的随机数 ζ1ζ1 ，从而合成一个新样本 xi1xi1 ：

xi1=xi+ζ1⋅(xi(nn)−xi)xi1=xi+ζ1⋅(xi(nn)−xi)

3. 将步骤2重复进行 NN 次，从而可以合成 NN 个新样本：xinew,new∈1,...,Nxinew,new∈1,...,N。

那么，对全部的 TT 个少数类样本进行上述操作，便可为该少数类合成 NTNT 个新样本。

如果样本的特征维数是 22 维，那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本 xi1 相当于是表示样本 xi 的点和表示样本 xi(nn)的点之间所连线段上的一个点。所以说该算法是基于“插值”来合成新样本。

这种方法通过合成新数据缓解了由于复制少数类带来的过拟合问题，同时不会造成有效信息丢失。然而，当合成新实例时，没有考虑与其他类的相邻实例，这可能会导致种类重叠，并且可能会添入额外的噪点。

3. 改进分类算法

基于bagging或者boosting

网友评论

本文标题：关于imbalanced data

本文链接：https://www.haomeiwen.com/subject/nzkcdqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！