一、自动分箱-粗分箱方法介绍
约定初始化分箱的个数为10。
定义:,代表箱子。
woe的含义是什么呢?我们可以想一下,假如不对变量进行分箱,即只有一箱,那么该箱的woe值是多少呢?答案是。因为,
现在我们可以尝试理解一下若woe大于0或者woe小于0代表了什么?从上面的推导我们可以得知当箱子内的坏好比和整体坏好比(可以理解为“大盘”)相等时,woe为0。那么woe大于0,就可以理解为箱子内的坏好比是高于“大盘”的,箱子内的客户质量较差;woe小于0,是箱子内的坏好比低于“大盘”,箱子内的客户质量较好。
1.1 iv
-
算法
-1.初始化10箱,计算每一箱的iv值
-2.对箱子进行两两合并,合并的原则是只能合并相邻的两箱,设合并前两箱的iv值分别是,,合并后为,计算的值
-3.合并最小的两个箱子,跳转2,直到分箱个数=目标箱数 -
原理
iv值越大,说明该变量越能区分好坏样本,因此在箱子合并时,应本着iv值损失最小的原则。
1.2 mapa
MAPA 单调相邻池化,也称为最大似然单调粗分类,该方法可以使得分箱得到的woe与bin呈现单调上升或单调下降的关系。
- 算法
-1.初始化10箱,计算每一箱的iv值
-2.第一次循环,从最小的bin开始计算,,得到序列;第二次循环及以后,从断点的下一个bin开始计算,:
woe与bin的关系单调下降:
woe与bin的关系单调上升:
-3.得到分割断点,跳转2,直到
-4.假设得到三个断点,则最后的分箱结果为:
- 原理
因为断点得到最大的,则
其中。bin小的woe值bin大的woe值,即woe与bin之间的关系是单调下降的。同理可对单调上升的公式进行验证。
1.3 树分箱
-
算法
-1.使用单个自变量与因变量训练决策树模型,得到bin -
原理
使用决策树模型,单棵树在学习的时候更倾向于区分好坏样本进行节点的分裂(即分箱),同iv的原理相似。
二、分箱实操
分箱是一个很细的工作,需要丰富的风控经验,在经验不足的情况下,可以参考下面的一些注意事项和原则。
-
数据穿越检测:
分完箱子,可以先检查下有没有iv值特别大的变量,若存在,需要判断是否有数据穿越问题(即用未来的数据预测现在)。可以注意下近24个月违约次数等违约类特征,当发生数据穿越时,该类特征的iv值会偏高。 -
进行分箱的变量筛选原则
金额类的不建议使用,意义不明的不用,难以解释的不用,分布奇怪的不用。最后得出来的变量最好拥有不同的维度:申请类的、违约类的、人口统计特性等。 -
分箱原则
1.违约类的变量分bin从0开始;
2.若邻近箱的woe值较为接近的话,就可以合并。
网友评论