美文网首页
数据分析案例(四)——评分卡模型(二)

数据分析案例(四)——评分卡模型(二)

作者: 番茄酱的汪 | 来源:发表于2020-03-28 14:29 被阅读0次

    本文章关于有监督分箱的方法:

    Best KS法

    • 基本原理:分箱后各个组别的分布差异化最大(bad rate - good rate,最大化的点)
    • 典型操作步骤(连续变量为例):
      1. 按数值大小排序
      2. 选取使KS值达到最大的数值作为拆分点
      3. 重复以上2-3步骤,直到满足终止条件
    • 终止条件:
      1. 分箱后最小区段占比低于指定与之(常用5%)
      2. 分箱后对应的箱体因变量位常量(都是好样本、坏样本)
      3. 分箱后bad rate 应该呈现单调趋势,如果是波动趋势,则应该停止
    • 方法缺陷: 只能针对因变量位两分类的情形进行分箱。这个比较简单,没有卡方分箱比较好

    卡方分箱

    • 自底向上(基于合并的)数据离散化方法
    • 它依赖于卡方检验,将具有最小卡方值的相邻区域合并在一起,知道满足确定的停止准则
    • 基本思想:相似类的分布在一个区间内应当完全一直
      1. 如果两个相邻的区间具有非常相似的类分布,则这两个区间可以合并
      2. 否则,它们应当保持分开
      3. 利用卡方值来衡量他们是否具有相似的类分布
    • 步骤
      1. 事先设定卡方阈值
      • \alpha常取0.1,0.05,0.01,最小区间数取5-10
      • 需要多种分箱结果相互比较,因此阈值的设定不存在金标准,还是要根据经验
      1. 初始化
      • 连续变量按取值排序
      • 分类变量按bad rate进行排序(类别:A,B,C,bad rate分别是:0.1,0.4,0.3,那么A和C合并比较好)
      1. 合并区间
      • 计算各相邻区间的卡方值(四个表卡方)
      • 将卡方值最小的一对区间合并,且两组的卡方阈值没有超过事先设定的,则说明这两个组别在统计上差别很小
      • 重复上述过程,直到最小卡方值高于阈值,或者分箱数等于指定的最低数值
        如果卡方值越大,二者偏差程度越大

    分箱判断好坏

    WOE:证据权重

    WOE = ln(好客户占比/坏客户占比) * 100

    • 分箱之后,WOE是要成单调趋势比较好,不能又增又减
    • 甄别出分箱是否合格

    IV(信息值)变量预测重要性的判断指标

    • 既可以判断这个变量用来建模的重要性,还可以判断同一个变量的哪个分箱策略更好一些
      IV = \sum{(好客户占比 - 坏客户占比) \times ln(好客户占比/坏客户占比) }
    • 好坏客户分离度
    • IV值越大,说明分箱效果越好
    • IV可以用于筛选变量,简化模型,降低模型开发的使用成本(分箱之后计算iv值,取前n个最大的)
    • 经验界值
      • IV<0.02 ,该变量基本无帮助
      • 0.02<=IV<=0.1,该变量对预测目标变量又一些帮助
      • 0.1<=IV<=0.3,又较大帮助
      • 0.3<=IV,有很大帮助,但是可以取深挖到底是什么原因,可以进行
      • IV>=0.5,该变量多半有问题,此时需要检查背后的逻辑,常见于时间变量,于结局变量有很大的关系
        IV和分箱的数量也有关系,数量越多,IV值就容易高,所以在考虑值的时候,对于多的箱体,可以实当提高一下界值

    相关文章

      网友评论

          本文标题:数据分析案例(四)——评分卡模型(二)

          本文链接:https://www.haomeiwen.com/subject/tznjuhtx.html