美文网首页
采样-SOMTE方法

采样-SOMTE方法

作者: 喵_十八 | 来源:发表于2017-11-23 11:51 被阅读0次

简介

SMOTE法(Synthetic Minority Oversampling Technique)是有效而常用的方法。该算法基于特征空间(而不是数据空间)生成与小类观测相似的新数据(译者注:总体是基于欧氏距离来度量相似性,在特征空间生成一些人工样本,更通俗地说是在样本点和它近邻点的连线上随机投点作为生成的人工样本)。我们也可以说,它生成了小类观测的随机集合来降低分类器的误差。

步骤

  • 1.计算样本点间的距离并确定其近邻。
  • 2.生成一个0到1上的均匀随机数,并将其乘以距离。
  • 3.把第二步生成的值加到样本点的特征向量上。
  • 4.这一过程等价于在在两个样本的连线上随机选择了一个点

伪代码

伪代码 tips

1.从最少的类别获取其中的最近邻,拓展倍数不足1倍时,会扩充的到1倍。
2.从k个最近邻中,选取一个A,在这个A的方向上,生成一个随机的点。

python 中使用

# 构建自变量和因变量
X = data
y = np.array(target)
n_sample = y.shape[0]
n_pos_sample = y[y == 0].shape[0]
n_neg_sample = y[y == 1].shape[0]
print('样本个数:{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数:', X.shape[1])

from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块
# 处理不平衡数据
sm = SMOTE(random_state=42)    # 处理过采样的方法
X, y = sm.fit_sample(X, y)
print('通过SMOTE方法平衡正负样本后')
n_sample = y.shape[0]
n_pos_sample = y[y == 0].shape[0]
n_neg_sample = y[y == 1].shape[0]
print('样本个数:{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))

参数详解

ref:

SMOTE: Synthetic Minority Over-sampling Technique
Python:SMOTE算法
API

相关文章

  • 采样-SOMTE方法

    简介 SMOTE法(Synthetic Minority Oversampling Technique)是有效而常...

  • 不平衡数据的处理

    解决方法: 通过采样的方法: 少数数据过采样 多数数据欠采样 生成少数数据:SMOTE 使用分类方法解决欠采样: ...

  • 采样方法

    参考 https://blog.csdn.net/Dark_Scope/article/details/70992...

  • 点云采样

    原文链接 点云采样分类 点云采样的方法有很多种,常见的有均匀采样,几何采样,随机采样,格点采样等。下面介绍一些常见...

  • Pandas时间序列重采样(resample)方法中closed

    目录Pandas重采样方法resample降采样升采样 Pandas提供了便捷的方式对时间序列进行重采样,根据时间...

  • 采样

    采样 1. 上采样 up sample 上采样可以用来进行图像放大,多采用内插方法,即在原有图像像素的基础上在像素...

  • SMOTE过采样

    SMOTE(合成少数类过采样),是基于随机过采样方法的一种改机方案。随机过采样通过简单复制样本的方式来增加少数样本...

  • APP音频 | Android 采样率检测

    系统APK音频采样测试方法: 重启设备后,再进入tmp文件夹查音频文件后缀名。 以上为APP16K采样率测试方法。

  • Image Pyramids

    上采样或降采样:2的整数倍 resize是基于几何上的变换,与金字塔不同 常见两种方法 高斯:降采样 拉普拉斯:上...

  • 蒙特卡洛算法和拉斯维加斯算法

    一、定义: 特卡罗是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的...

网友评论

      本文标题:采样-SOMTE方法

      本文链接:https://www.haomeiwen.com/subject/zmiavxtx.html