- 权值放缩
- 过采用:smote 模拟产生数据
- 欠采样
权值缩放
按照真实几率 则属于正样本,反之则属于负样本。前提采用的无偏采样,在这个假设下, q 为预测几率。
如过样本中 正反数目不同,令 为 正样本数量 ,为负样本数量。则观测几率为 / ,只要预测几率大于观测几率则可以认为是正样本。
即如下预测为证 :
所以当样本不平衡时,采用如下进行放缩:
欠采样
正样本数M和负样本数N,假设,此时减少负样本数量使得
过采样
过采样的思量与欠采样的思路相反,即,增加正样本个数M,使得。需要注意的是,过采样不能简单的对初始正样本进行重复采样,否则会导致过你和问题。典型的代表算法为·smote算法产生额外的正样本数据。
算法原理
算法步骤:
smote算法入参为3个部分,需要扩充的样本T,扩展的倍数N,和算法中需要用的K近邻个数。
1.参数校验:N 必须是整数倍
2.计算样本的K个最近最近邻
3.选取其中一个K样本, 以及一个0~1的随机数rank,进行k次
4.重复2,3步骤,遍历所有样本,最终形成NT个新样本。
参考文献:
smote论文地址 https://www3.nd.edu/~dial/publications/chawla2002smote.pdf
网友评论