美文网首页
初识IV值、WOE

初识IV值、WOE

作者: witty_drip | 来源:发表于2019-11-25 13:57 被阅读0次

    IV值的简单说明

    IV,即information value,中文含义为信息价值,或者说信息量

    当现实中,我们进行建模时,不知道哪些自变量对模型有效,会构造几百个甚至上千个自变量,但这些自变量不会都放入模型进行训练,而是会使用一些方法,对自变量进行筛选后,再放入模型进行拟合训练。那么,如何挑选入模变量呢?

    入模变量需要考虑的因素:

    1、变量的预测能力

    2、变量之间的相关性

    3、变量的简单性

    4、变量的稳健型

    5、变量的可解释性

    其中,以变量的预测能力为最主要和最直接的衡量标准。而IV值、信息增益、基尼系数等都能用来衡量自变量的预测能力。

    IV值如何计算?

    IV值是在WOE的基础上计算得出的,我们先来说说WOE是个什么意思~

    WOE,全称Weight of Evidence,即证据的权重,woe是对原始自变量的一种编码形式。

    首先,需要对自变量进行分组(分bin、离散化等),对不同组别分别计算woe值,其中第i组,WOE的计算公式为:

    WOEi=ln(Pyi/Pni)

    Pyi为该分组中响应用户数占所有响应用户的比例,Pni为该分组中非响应用户数占所有非响应用户的比例,将公式稍微变形,可知:

    WOE也可表示“当前分组中响应用户与非响应用户的比值,同整体样本中响应用户与非响应用户的比值差异“。那么WOE越大,这种差异就越大,这个分组中样本响应的可能性越大。

    各分组的IV值可以由WOE计算得到,计算方式为:

    该变量的IV值为各组内IV值汇总

    其中n为组数

    实例介绍:见上方链接

    常见问题:

    1、为什么IV值不用WOE的绝对值汇总,而要乘(pyi-pni)?

    若分组后,1组响应用户与非响应用户占比的确很显著,但1组用户数只占总用户数的1%,这样的变量其实对整体样本而言,是没有多大意义的,因为大部分的用户不会分到1组,该变量的预测能力并不强

    2、IV的极端情况及处理方式?

    使用IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么,遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:

    (1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

    (2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

    (3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

    学习自https://www.jianshu.com/p/3a7cb26ca268

    相关文章

      网友评论

          本文标题:初识IV值、WOE

          本文链接:https://www.haomeiwen.com/subject/hjodwctx.html