美文网首页
初识IV值、WOE

初识IV值、WOE

作者: witty_drip | 来源:发表于2019-11-25 13:57 被阅读0次

IV值的简单说明

IV,即information value,中文含义为信息价值,或者说信息量

当现实中,我们进行建模时,不知道哪些自变量对模型有效,会构造几百个甚至上千个自变量,但这些自变量不会都放入模型进行训练,而是会使用一些方法,对自变量进行筛选后,再放入模型进行拟合训练。那么,如何挑选入模变量呢?

入模变量需要考虑的因素:

1、变量的预测能力

2、变量之间的相关性

3、变量的简单性

4、变量的稳健型

5、变量的可解释性

其中,以变量的预测能力为最主要和最直接的衡量标准。而IV值、信息增益、基尼系数等都能用来衡量自变量的预测能力。

IV值如何计算?

IV值是在WOE的基础上计算得出的,我们先来说说WOE是个什么意思~

WOE,全称Weight of Evidence,即证据的权重,woe是对原始自变量的一种编码形式。

首先,需要对自变量进行分组(分bin、离散化等),对不同组别分别计算woe值,其中第i组,WOE的计算公式为:

WOEi=ln(Pyi/Pni)

Pyi为该分组中响应用户数占所有响应用户的比例,Pni为该分组中非响应用户数占所有非响应用户的比例,将公式稍微变形,可知:

WOE也可表示“当前分组中响应用户与非响应用户的比值,同整体样本中响应用户与非响应用户的比值差异“。那么WOE越大,这种差异就越大,这个分组中样本响应的可能性越大。

各分组的IV值可以由WOE计算得到,计算方式为:

该变量的IV值为各组内IV值汇总

其中n为组数

实例介绍:见上方链接

常见问题:

1、为什么IV值不用WOE的绝对值汇总,而要乘(pyi-pni)?

若分组后,1组响应用户与非响应用户占比的确很显著,但1组用户数只占总用户数的1%,这样的变量其实对整体样本而言,是没有多大意义的,因为大部分的用户不会分到1组,该变量的预测能力并不强

2、IV的极端情况及处理方式?

使用IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么,遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:

(1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

(2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

(3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

学习自https://www.jianshu.com/p/3a7cb26ca268

相关文章

  • 初识IV值、WOE

    IV值的简单说明 IV,即information value,中文含义为信息价值,或者说信息量 当现实中,我们进行...

  • 谈谈 WOE和IV

    谈谈 WOE和IV[WOE] weight of evidence ,即证据权重;[IV] information...

  • WOE与IV值

    原文链接:WOE与IV值 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 计算WOE...

  • WOE IV KS指标

    WOE和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本...

  • (一)python-申请评分卡模型

    简介 本文通过使用LendingClub的数据,采用卡方分箱(ChiMerge)、WOE编码、计算IV值、单变量和...

  • WoE 和 IV

    1. 如何计算WoE 具体计算示例结果如下: 2. WoE的使用 将一个连续的独立变量转化成基于非独立变量分布的相...

  • 模型变量选择方法-IV值WOE

    1.IV的用途 IV的全称是InformationValue,中文意思是信息价值,或者信息量。 我们在用逻辑回归、...

  • (转)逻辑回归中常用的概念: WOE、IV详解

    为了挑选并构造出对目标变量有较高预测力的自变量,需要对变量进行WOE编码,通过IV值的看变量的贡献。 运用场景 根...

  • woe与iv (python)

    https://blog.csdn.net/kevin7658/article/details/50780391 ...

  • WOE、IV、PSI介绍

    WOE 1.定义: WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种...

网友评论

      本文标题:初识IV值、WOE

      本文链接:https://www.haomeiwen.com/subject/hjodwctx.html