本文章关于有监督分箱的方法:
Best KS法
- 基本原理:分箱后各个组别的分布差异化最大(bad rate - good rate,最大化的点)
- 典型操作步骤(连续变量为例):
- 按数值大小排序
- 选取使KS值达到最大的数值作为拆分点
- 重复以上2-3步骤,直到满足终止条件
- 终止条件:
- 分箱后最小区段占比低于指定与之(常用5%)
- 分箱后对应的箱体因变量位常量(都是好样本、坏样本)
- 分箱后bad rate 应该呈现单调趋势,如果是波动趋势,则应该停止
- 方法缺陷: 只能针对因变量位两分类的情形进行分箱。这个比较简单,没有卡方分箱比较好
卡方分箱
- 自底向上(基于合并的)数据离散化方法
- 它依赖于卡方检验,将具有最小卡方值的相邻区域合并在一起,知道满足确定的停止准则
- 基本思想:相似类的分布在一个区间内应当完全一直
- 如果两个相邻的区间具有非常相似的类分布,则这两个区间可以合并
- 否则,它们应当保持分开
- 利用卡方值来衡量他们是否具有相似的类分布
- 步骤
- 事先设定卡方阈值
- 常取0.1,0.05,0.01,最小区间数取5-10
- 需要多种分箱结果相互比较,因此阈值的设定不存在金标准,还是要根据经验
- 初始化
- 连续变量按取值排序
- 分类变量按bad rate进行排序(类别:A,B,C,bad rate分别是:0.1,0.4,0.3,那么A和C合并比较好)
- 合并区间
- 计算各相邻区间的卡方值(四个表卡方)
- 将卡方值最小的一对区间合并,且两组的卡方阈值没有超过事先设定的,则说明这两个组别在统计上差别很小
- 重复上述过程,直到最小卡方值高于阈值,或者分箱数等于指定的最低数值
如果卡方值越大,二者偏差程度越大
分箱判断好坏
WOE:证据权重
- 分箱之后,WOE是要成单调趋势比较好,不能又增又减
- 甄别出分箱是否合格
IV(信息值)变量预测重要性的判断指标
- 既可以判断这个变量用来建模的重要性,还可以判断同一个变量的哪个分箱策略更好一些
- 好坏客户分离度
- IV值越大,说明分箱效果越好
- IV可以用于筛选变量,简化模型,降低模型开发的使用成本(分箱之后计算iv值,取前n个最大的)
- 经验界值
- IV<0.02 ,该变量基本无帮助
- 0.02<=IV<=0.1,该变量对预测目标变量又一些帮助
- 0.1<=IV<=0.3,又较大帮助
- 0.3<=IV,有很大帮助,但是可以取深挖到底是什么原因,可以进行
- IV>=0.5,该变量多半有问题,此时需要检查背后的逻辑,常见于时间变量,于结局变量有很大的关系
IV和分箱的数量也有关系,数量越多,IV值就容易高,所以在考虑值的时候,对于多的箱体,可以实当提高一下界值
网友评论