美文网首页机器学习入门笔记
类别不平衡学习资源推荐

类别不平衡学习资源推荐

作者: 材才才 | 来源:发表于2020-05-30 09:46 被阅读0次

    今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源

    https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

    前言

    类别不平衡(Class-imbalance),也被称为长尾问题(long-tail problem),指的是分类问题中数据集的类别数量并不一致,有的类别特别多,但有的类别特别少,并且这是实际应用里非常常见的问题。例如,欺诈检测,罕见药物不良反应的预测,以及基因家族预测。因为类别不平衡的原因就会导致预测不准确,降低了分类模型的性能。因此,不平衡学习(Imbalanced learning)的目标就是要解决类别不平衡问题,并从不平衡的数据中学习一个无偏模型。

    目录如下所示:

    • 代码库/框架
      • Python
      • R
      • Java
      • Scalar
      • Julia
    • 论文
      • 综述
      • 深度学习
      • 数据重采样(Data resampling)
      • 成本敏感学习(Cost-sensitive Learning)
      • 集成学习(Ensemble Learning)
      • 异常检测
    • 其他
      • 不平衡数据库
      • 其他的资源

    另外,带有🉑 标记的是作者特别推荐的重要或者高质量的论文和框架。


    代码库/框架

    Python

    imbalanced-learn

    官网:https://imbalanced-learn.org/stable/

    Github:https://github.com/scikit-learn-contrib/imbalanced-learn

    官方文档:https://imbalanced-learn.readthedocs.io/en/stable/

    论文地址:http://10.187.70.34/www.jmlr.org/papers/volume18/16-365/16-365.pdf

    这个库是一个 python 编写的提供了一些常用于数据集的重采样技术,它适配 scikit-learn 库,并且也是 scikit-learn-contrib 库的一部分。

    🉑 python 编写,上手简单

    R

    • smote_variants

    官网:https://smote-variants.readthedocs.io/en/latest/

    文档: [(https://smote-variants.readthedocs.io/en/latest/

    Github:https://github.com/analyticalmindsltd/smote_variants)

    集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)

    • caret

    官网:https://cran.r-project.org/web/packages/caret/index.html

    文档:http://topepo.github.io/caret/index.html

    Github:https://github.com/topepo/caret

    实现了随机欠采样和过采样方法

    • ROSE

    官网:https://cran.r-project.org/web/packages/ROSE/index.html

    文档:https://www.rdocumentation.org/packages/ROSE/versions/0.0-3

    实现了随机过采样方法

    • DMwR

    官网:https://cran.r-project.org/web/packages/DMwR/index.html

    文档:https://www.rdocumentation.org/packages/DMwR/versions/0.4.1

    实现了 SMOTE(Synthetic Minority Over-sampling TEchnique),即合成少数过采样技术

    Java

    KEEL

    官网:https://sci2s.ugr.es/keel/description.php

    Github:https://github.com/SCI2SUGR/KEEL

    论文:https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/0758_Alcalaetal-SoftComputing-Keel1.0.pdf

    KEEL 提供了一个简单的图形界面,可以基于数据流程来设计不同数据集的实验,以及不同智能计算的算法(特别关注进化算法),从而接触到算法的行为。该工具包含了很多广泛应用的不平衡学习方法,比如过采样和欠采样,损失敏感学习,算法修正以及集成学习方法。

    🉑 包含多种算法,比如经典分类算法、回归算法以及预处理算法

    Scalar

    undersampling

    官网:https://github.com/NestorRV/undersampling

    文档:https://nestorrv.github.io/

    Github:https://github.com/NestorRV/undersampling

    实现了欠采样方法以及集成方法变形的方法。

    Julia

    smote_variants
    官网:https://smote-variants.readthedocs.io/en/latest/
    文档:https://smote-variants.readthedocs.io/en/latest/
    Github:https://github.com/analyticalmindsltd/smote_variants

    集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)


    论文

    • Learning from imbalanced data,2009 年的论文,有 4700+的引用,非常经典的论文。主要是系统性的回顾了流行的解决方法、评估标准以及未来研究中需要面临的挑战和问题(2009 年的时候);

    🉑 经典的工作

    🉑 一篇系统的并且对现有方法详细分类标准的综述

    深度学习

    数据重采样

    • 过采样

      • ROS [Code] - 随机过采样

      • SMOTE [Code] (2002, 9800+ 引用) ,合成少数类的过采样技术(Synthetic Minority Over-sampling TEchnique)

        🉑 经典的工作

      • Borderline-SMOTE [Code] (2005, 1400+ 引用) ,边界合成少数类的过采样技术;

      • ADASYN [Code] (2008, 1100+ 引用) ,自适应合成采样(ADAptive SYNthetic Sampling);

      • SPIDER [Code (Java)] (2008, 150+ 引用) ,不平衡数据的选择性预处理;

      • Safe-Level-SMOTE [Code (Java)] (2009, 370+ 引用) ,安全级综合少数类的过采样技术;

      • SVM-SMOTE [Code] (2009, 120+ 引用) ,基于 SVM 的 SMOTE

      • SMOTE-IPF (2015, 180+ 引用) ,迭代分区过滤的 SMOTE

    • 欠采样

      • RUS [Code],随机欠采样;
      • CNN [Code] (1968, 2100+ 引用) ,浓缩的最近邻(Condensed Nearest Neighbor);
      • ENN [Code] (1972, 1500+ citations) ,可编辑的浓缩的最近邻(Edited Condensed Nearest Neighbor);
      • TomekLink [Code] (1976, 870+ citations) ,Tomek 对浓缩的最近邻的修正方法;
      • NCR [Code] (2001, 500+ 引用) , 近邻的清洗规则;
      • NearMiss-1 & 2 & 3 [Code] (2003, 420+ 引用) ,几种解决不平衡数据分布的 KNN 方法
      • CNN with TomekLink [Code (Java)] (2004, 2000+ 引用) ,结合了浓缩的最近邻和 TomekLink 方法;
      • OSS [Code] (2007, 2100+ 引用):单边选择(One Side Selection);
      • EUS (2009, 290+ 引用) :进化的欠采样(Evolutionary Under-sampling);
      • IHT [Code] (2014, 130+ 引用) :实例难度阈值(Instance Hardness Threshold);
    • 混合采样

    成本敏感学习

    集成学习

    异常检测


    其他

    不平衡数据集

    ID Name Repository & Target Ratio #S #F
    1 ecoli UCI, target: imU 8.6:1 336 7
    2 optical_digits UCI, target: 8 9.1:1 5,620 64
    3 satimage UCI, target: 4 9.3:1 6,435 36
    4 pen_digits UCI, target: 5 9.4:1 10,992 16
    5 abalone UCI, target: 7 9.7:1 4,177 10
    6 sick_euthyroid UCI, target: sick euthyroid 9.8:1 3,163 42
    7 spectrometer UCI, target: > =44 11:1 531 93
    8 car_eval_34 UCI, target: good, v good 12:1 1,728 21
    9 isolet UCI, target: A, B 12:1 7,797 617
    10 us_crime UCI, target: >0.65 12:1 1,994 100
    11 yeast_ml8 LIBSVM, target: 8 13:1 2,417 103
    12 scene LIBSVM, target: >one label 13:1 2,407 294
    13 libras_move UCI, target: 1 14:1 360 90
    14 thyroid_sick UCI, target: sick 15:1 3,772 52
    15 coil_2000 KDD, CoIL, target: minority 16:1 9,822 85
    16 arrhythmia UCI, target: 06 17:1 452 278
    17 solar_flare_m0 UCI, target: M->0 19:1 1,389 32
    18 oil UCI, target: minority 22:1 937 49
    19 car_eval_4 UCI, target: vgood 26:1 1,728 21
    20 wine_quality UCI, wine, target: <=4 26:1 4,898 11
    21 letter_img UCI, target: Z 26:1 20,000 16
    22 yeast_me2 UCI, target: ME2 28:1 1,484 8
    23 webpage LIBSVM, w7a, target: minority 33:1 34,780 300
    24 ozone_level UCI, ozone, data 34:1 2,536 72
    25 mammography UCI, target: minority 42:1 11,183 6
    26 protein_homo KDD CUP 2004, minority 111:1 145,751 74
    27 abalone_19 UCI, target: 19 130:1 4,177 10

    上述数据集的集合来自 imblearn.datasets.fetch_datasets

    其他资源


    最后,github 地址是:

    https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

    另外,本人水平有限,所以对部分专业术语的翻译可能并不正确,没法做到非常完美,请多多包涵,谢谢!

    欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

    image

    相关文章

      网友评论

        本文标题:类别不平衡学习资源推荐

        本文链接:https://www.haomeiwen.com/subject/ytlczhtx.html