美文网首页
SMOTE算法

SMOTE算法

作者: 生信编程日常 | 来源:发表于2020-12-08 22:55 被阅读0次

SMOTE算法,即Synthetic Minority Oversampling Technique合成少数类过采样技术,这是一种过采样的方法。

它是对随机采样方法的一种改进,在随机过采样中,虽然可以使样本集变得均衡,但会带来一些问题,比如,过采样对少数类样本进行了多次复制,扩大了数据规模,增加了模型训练的复杂度,同时也很容易造成过拟合。

通常在过采样时并不是简单地复制样本,而是采用一些方法生成新的样本。例如,SMOTE算法对少数类样本每个样本x,从它的K近邻中随机选一个样本y,然后在x,y连线上随机选取一点作为新合成的样本。这种合成新样本的过采样方法可以降低过拟合的风险。


SMOTE比随机采样要好,但是仍然会存在一些问题,为每个少数类样本合成相同数量的新样本,这可能会增大类间重叠度,并且会生成一些不能提供有益信息的样本。因此出现了Borderline-SMOTE、ADASYN等改进算法。

Borderline SMOTE算法仅使用边界上的少数类样本来合成新样本,从而改善样本的类别分布。如下所示,仅对danger的样本进行过采样。


ADASYN则对不同的少数类样本赋予不同的权重,合成不同个数的新样本:


以上算法均可在imblearn中实现。

参考:

  1. https://blog.csdn.net/u010654299/article/details/103980964
  2. 《百面机器学习》

相关文章

  • SMOTE算法

    SMOTE算法,即Synthetic Minority Oversampling Technique合成少数类过采...

  • Python:SMOTE算法

    17.11.28更新一下:最近把这个算法集成到了数据预处理的python工程代码中了,不想看原理想直接用的,有简易...

  • 不平衡样本的处理方法

    欠采样: 从多数类的样本中随机选择样本; 过采样: 复制少数类样本扩大数据集, smote算法及其衍生; 代价敏感...

  • 过采样中用到的SMOTE算法

    平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。类不平衡(class-imbal...

  • Imbalanced-learn for NSL-KDD

    RawData Over-sampling RandomOverSample SMOTE ADASYN Borde...

  • SMOTE 解决正负样本数不平衡

    SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样...

  • 采样-SOMTE方法

    简介 SMOTE法(Synthetic Minority Oversampling Technique)是有效而常...

  • 处理不平衡数据:SMOTE

    SMOTE原理:https://www.jianshu.com/p/ecbc924860afimblearn库的使...

  • SMOTE过采样

    SMOTE(合成少数类过采样),是基于随机过采样方法的一种改机方案。随机过采样通过简单复制样本的方式来增加少数样本...

  • 不平衡数据-SMOTE综述【SMOTE合成采样系列】

    引言 在机器学习中,使用常用算法进行分类时,如:逻辑回归、决策树、支持向量机、随机森林等,都假设数据集是平衡的,即...

网友评论

      本文标题:SMOTE算法

      本文链接:https://www.haomeiwen.com/subject/cegqgktx.html