美文网首页
训练样本不平衡解决思路

训练样本不平衡解决思路

作者: 一心一意弄算法 | 来源:发表于2018-07-17 13:35 被阅读206次
    • 权值放缩
    • 过采用:smote 模拟产生数据
    • 欠采样

    权值缩放

    按照真实几率 \frac{y}{1-y} > 1 则属于正样本,反之则属于负样本。前提采用的无偏采样,在这个假设下\frac{q}{1-q} = \frac{y}{1-y}, q 为预测几率。

    如过样本中 正反数目不同,令 m^+ 为 正样本数量 ,m^-为负样本数量。则观测几率为 m^+ / m^- ,只要预测几率大于观测几率则可以认为是正样本。

    即如下预测为证 : \frac{y}{1-y} > \frac{m^+}{m^-}
    所以当样本不平衡时,采用如下进行放缩:

    \frac{y}{1-y} * \frac{m^-}{m^+} > 1

    欠采样

    正样本数M和负样本数N,假设N> M,此时减少负样本数量使得N' = M

    过采样

    过采样的思量与欠采样的思路相反,即,增加正样本个数M,使得N = M'。需要注意的是,过采样不能简单的对初始正样本进行重复采样,否则会导致过你和问题。典型的代表算法为·smote算法产生额外的正样本数据。

    算法原理

    算法步骤:
    smote算法入参为3个部分,需要扩充的样本T,扩展的倍数N,和算法中需要用的K近邻个数。
    1.参数校验:N 必须是整数倍
    2.计算样本x_i的K个最近最近邻
    3.选取其中一个K样本x_{ki}, 以及一个0~1的随机数rank,进行k次
    x_{new} = x_i +rank*(x_i - x_{ki})
    4.重复2,3步骤,遍历所有样本,最终形成NT个新样本。

    参考文献:
    smote论文地址 https://www3.nd.edu/~dial/publications/chawla2002smote.pdf

    相关文章

      网友评论

          本文标题:训练样本不平衡解决思路

          本文链接:https://www.haomeiwen.com/subject/drghjftx.html