采样-概述

作者: 喵_十八 | 来源:发表于2017-11-23 09:26 被阅读0次

什么是不平衡分类

不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。(注:下文中占比较大的类称为大类,占比较小的类称为小类)

不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们就认为它不平衡。

比如给1万个用户发推送,只有10个回应,这个就是不平衡的。
如果拿全量数据去训练的话,会出现难以识别那10个的精度,因而需要调整比例均衡。

下面是机器学习算法在不平衡数据上精度下降的原因:

响应变量的分布不均匀使得算法精度下降,对于小类的预测精度会很低。

算法本身是精度驱动的,即该模型的目标是最小化总体误差,而小类对于总体误差的贡献很低。

算法本身假设数据集的类分布均衡,同时它们也可能假定不同类别的误差带来相同的损失(下文会详细叙述)。

具体的采样方法

欠采样法(Undersampling)
过采样法(Oversampling)
人工数据合成法(Synthetic Data Generation)
代价敏感学习法(Cose Sensitive Learning)

统计学常用的几个采样方法

1.simple random sample(简单随机抽样): 在简单随机抽样中,总体所有成员被选为样本的概率是相等的。
2.stratified sampling(分成抽样):将总体分成不同的子群,然后对所有的子群进行抽样。
3.systematic sampling(系统抽样):首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。
4.cluster sampling(整群抽样):总体被分为若干群的子总体,每个子总体都代表整个总体。
5.multistage sampling(多阶段抽样):是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种方法。

ref:

R语言不平衡数据分类指南
https://zhuanlan.zhihu.com/p/24826792
Practical Guide to deal with Imbalanced Classification Problems in R
https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

相关文章

  • 采样-概述

    什么是不平衡分类 不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问...

  • 各领域中采样方式研究 (持续更新)

    一、图像的上采样(upsampling)与下采样(downsampling) 1、概述 缩小图像(或称为下采样(s...

  • 😆 机器学习采样方法大全

    ? Index 数据采样的原因 常见的采样算法 失衡样本的采样 采样的Python实现 ? 数据采样的原因 其实我...

  • 无监督学习-邻域嵌入方法|深度学习(李宏毅)(十八)

    一、概述 流形学习(Manifold Learning)是指通过从高维采样数据中恢复低维流形结构,即找到高维空间中...

  • 音频重采样ffmpeg(九)

    前言 广义的音频重采样包括:1、采样格式转化:比如采样格式从16位整形变为浮点型2、采样率的转换:降采样和升采样,...

  • ffmpeg之-音频重采样(七)

    前言 广义的音频重采样包括:1、采样格式转化:比如采样格式从16位整形变为浮点型2、采样率的转换:降采样和升采样,...

  • 点云采样

    原文链接 点云采样分类 点云采样的方法有很多种,常见的有均匀采样,几何采样,随机采样,格点采样等。下面介绍一些常见...

  • 关于深度学习,这些知识点你需要了解一下

    深度学习概述 o受限玻尔兹曼机和深度信念网络 oDropout o处理不平衡的技巧 oSMOTE:合成少数过采样技...

  • 使用Systrace分析安卓性能

    一、概述 Systrace是安卓4.1中新增的数据采样和分析工具。谷歌通过在源码的关键函数中这是trace(也就是...

  • MySQL优化系列7-MySQL的统计信息

    一.InnoDB的统计信息概述 MySQL统计信息是指 数据库通过采样、统计出来的表、索引的相关信息,例如,表的记...

网友评论

    本文标题:采样-概述

    本文链接:https://www.haomeiwen.com/subject/laavmxtx.html