美文网首页
风控建模之woe分箱

风控建模之woe分箱

作者: 7NIC7 | 来源:发表于2021-04-16 16:24 被阅读0次

    一、自动分箱-粗分箱方法介绍

    约定初始化分箱的个数为10。
    定义:woe_{bin} = \log \frac{bad_{bin}/bad_{total}}{good_{bin}/good_{total}},bin代表箱子。
    woe的含义是什么呢?我们可以想一下,假如不对变量进行分箱,即只有一箱,那么该箱的woe值是多少呢?答案是woe=0。因为,
    \begin{align} \sum bad_{bin} &= bad_{total} \\ \sum good_{bin} &= good_{total} \end{align}
    现在我们可以尝试理解一下若woe大于0或者woe小于0代表了什么?从上面的推导我们可以得知当箱子内的坏好比和整体坏好比(可以理解为“大盘”)相等时,woe为0。那么woe大于0,就可以理解为箱子内的坏好比是高于“大盘”的,箱子内的客户质量较差;woe小于0,是箱子内的坏好比低于“大盘”,箱子内的客户质量较好。

    1.1 iv

    • 算法
      -1.初始化10箱,计算每一箱的iv值
      -2.对箱子进行两两合并,合并的原则是只能合并相邻的两箱,设合并前两箱的iv值分别是iv_1,iv_2,合并后为iv_3,计算iv_{\delta} = |iv_3-iv_1-iv_2|的值
      -3.合并iv_\delta最小的两个箱子,跳转2,直到分箱个数=目标箱数

    • 原理
      iv值越大,说明该变量越能区分好坏样本,因此在箱子合并时,应本着iv值损失最小的原则。

    1.2 mapa

    MAPA 单调相邻池化,也称为最大似然单调粗分类,该方法可以使得分箱得到的woe与bin呈现单调上升或单调下降的关系。

    • 算法
      -1.初始化10箱,计算每一箱的iv值
      -2.第一次循环,从最小的bin开始计算,k=1,2,3,...,10,得到序列\{br_1,...,br_{10} \};第二次循环及以后,从断点p的下一个bin开始计算,k=p+1,p+2,...,10
      woe与bin的关系单调下降:
      br_k = \sum_{i=k}^{i=10} bad_{bin_i}/(\sum_{i=k}^{i=10} bad_{bin_i}+\sum_{i=k}^{i=10} good_{bin_i})
      woe与bin的关系单调上升:
      br_k = \sum_{i=k}^{i=10} good_{bin_i}/(\sum_{i=k}^{i=10} bad_{bin_i}+\sum_{i=k}^{i=10} good_{bin_i})
      -3.得到分割断点p,跳转2,直到p=10
      p = \arg\max_{k} br_{k}
      -4.假设得到三个断点p_1=3,p_2=6,p_3=8,则最后的分箱结果为:
      \begin{align} newbin_1 &= [bin_1,bin_2,bin_3] \\ newbin_2 &= [bin_4, bin_5, bin_6] \\ newbin_3 &= [bin_7,bin_8]\\ newbin_4 &= [bin_9, bin_{10}] \end{align}
    • 原理
      因为断点p_k得到最大的br_k,则
      \begin{align} &br_k > br_j \ \ (j>k) \\ =>& \frac{B_k}{B_k+G_k} > \frac{B_j}{B_j+G_j} \\ =>& \frac{B_k}{G_k} > \frac{B_j}{G_j}\ \ \ (B、G均为正数,两边同乘(B_k+G_k)*(B_j+G_j))\\ =>& \frac{B_k/B_{total}}{G_k/G_{total}} > \frac{B_j/B_{total}}{G_j/G_{total}} , 即 woe_k>woe_j得证 \end{align}
      其中B_k = \sum_{i=k}^{i=10} bad_{bin_i}, G_k=\sum_{i=k}^{i=10} good_{bin_i}。bin小的woe值>bin大的woe值,即woe与bin之间的关系是单调下降的。同理可对单调上升的公式进行验证。

    1.3 树分箱

    • 算法
      -1.使用单个自变量与因变量训练决策树模型,得到bin

    • 原理
      使用决策树模型,单棵树在学习的时候更倾向于区分好坏样本进行节点的分裂(即分箱),同iv的原理相似。

    二、分箱实操

    分箱是一个很细的工作,需要丰富的风控经验,在经验不足的情况下,可以参考下面的一些注意事项和原则。

    • 数据穿越检测:
      分完箱子,可以先检查下有没有iv值特别大的变量,若存在,需要判断是否有数据穿越问题(即用未来的数据预测现在)。可以注意下近24个月违约次数等违约类特征,当发生数据穿越时,该类特征的iv值会偏高。

    • 进行分箱的变量筛选原则
      金额类的不建议使用,意义不明的不用,难以解释的不用,分布奇怪的不用。最后得出来的变量最好拥有不同的维度:申请类的、违约类的、人口统计特性等。

    • 分箱原则
      1.违约类的变量分bin从0开始;
      2.若邻近箱的woe值较为接近的话,就可以合并。

    相关文章

      网友评论

          本文标题:风控建模之woe分箱

          本文链接:https://www.haomeiwen.com/subject/wpuvkltx.html