IV值的简单说明
IV,即information value,中文含义为信息价值,或者说信息量
当现实中,我们进行建模时,不知道哪些自变量对模型有效,会构造几百个甚至上千个自变量,但这些自变量不会都放入模型进行训练,而是会使用一些方法,对自变量进行筛选后,再放入模型进行拟合训练。那么,如何挑选入模变量呢?
入模变量需要考虑的因素:
1、变量的预测能力
2、变量之间的相关性
3、变量的简单性
4、变量的稳健型
5、变量的可解释性
其中,以变量的预测能力为最主要和最直接的衡量标准。而IV值、信息增益、基尼系数等都能用来衡量自变量的预测能力。
IV值如何计算?
IV值是在WOE的基础上计算得出的,我们先来说说WOE是个什么意思~
WOE,全称Weight of Evidence,即证据的权重,woe是对原始自变量的一种编码形式。
首先,需要对自变量进行分组(分bin、离散化等),对不同组别分别计算woe值,其中第i组,WOE的计算公式为:
WOEi=ln(Pyi/Pni)
Pyi为该分组中响应用户数占所有响应用户的比例,Pni为该分组中非响应用户数占所有非响应用户的比例,将公式稍微变形,可知:
WOE也可表示“当前分组中响应用户与非响应用户的比值,同整体样本中响应用户与非响应用户的比值差异“。那么WOE越大,这种差异就越大,这个分组中样本响应的可能性越大。
各分组的IV值可以由WOE计算得到,计算方式为:
该变量的IV值为各组内IV值汇总
其中n为组数
实例介绍:见上方链接
常见问题:
1、为什么IV值不用WOE的绝对值汇总,而要乘(pyi-pni)?
若分组后,1组响应用户与非响应用户占比的确很显著,但1组用户数只占总用户数的1%,这样的变量其实对整体样本而言,是没有多大意义的,因为大部分的用户不会分到1组,该变量的预测能力并不强
2、IV的极端情况及处理方式?
使用IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么,遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:
(1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;
(2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。
(3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.
网友评论