初识IV值、WOE

作者: witty_drip | 来源:发表于2019-11-25 13:57 被阅读0次

初识IV值、WOE
谈谈 WOE和IV
WOE与IV值
WOE IV KS指标
（一）python-申请评分卡模型
WoE 和 IV
模型变量选择方法-IV值WOE
(转)逻辑回归中常用的概念： WOE、IV详解
woe与iv （python）
WOE、IV、PSI介绍

IV值的简单说明

IV，即information value，中文含义为信息价值，或者说信息量

当现实中，我们进行建模时，不知道哪些自变量对模型有效，会构造几百个甚至上千个自变量，但这些自变量不会都放入模型进行训练，而是会使用一些方法，对自变量进行筛选后，再放入模型进行拟合训练。那么，如何挑选入模变量呢？

入模变量需要考虑的因素：

1、变量的预测能力

2、变量之间的相关性

3、变量的简单性

4、变量的稳健型

5、变量的可解释性

其中，以变量的预测能力为最主要和最直接的衡量标准。而IV值、信息增益、基尼系数等都能用来衡量自变量的预测能力。

IV值如何计算？

IV值是在WOE的基础上计算得出的，我们先来说说WOE是个什么意思～

WOE，全称Weight of Evidence，即证据的权重，woe是对原始自变量的一种编码形式。

首先，需要对自变量进行分组（分bin、离散化等），对不同组别分别计算woe值，其中第i组，WOE的计算公式为：

WOEi=ln(Pyi/Pni)

Pyi为该分组中响应用户数占所有响应用户的比例，Pni为该分组中非响应用户数占所有非响应用户的比例，将公式稍微变形，可知：

WOE也可表示“当前分组中响应用户与非响应用户的比值，同整体样本中响应用户与非响应用户的比值差异“。那么WOE越大，这种差异就越大，这个分组中样本响应的可能性越大。

各分组的IV值可以由WOE计算得到，计算方式为：

该变量的IV值为各组内IV值汇总

其中n为组数

实例介绍：见上方链接

常见问题：

1、为什么IV值不用WOE的绝对值汇总，而要乘（pyi-pni）？

若分组后，1组响应用户与非响应用户占比的确很显著，但1组用户数只占总用户数的1%，这样的变量其实对整体样本而言，是没有多大意义的，因为大部分的用户不会分到1组，该变量的预测能力并不强

2、IV的极端情况及处理方式？

使用IV其实有一个缺点，就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么，遇到响应比例为0或者100%的情况，我们应该怎么做呢？建议如下：

（1）如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；

（2）重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。

（3）如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1.

学习自https://www.jianshu.com/p/3a7cb26ca268

网友评论

本文标题：初识IV值、WOE

本文链接：https://www.haomeiwen.com/subject/hjodwctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

初识IV值、WOE

IV值的简单说明

IV值如何计算？

常见问题：

1、为什么IV值不用WOE的绝对值汇总，而要乘（pyi-pni）？

2、IV的极端情况及处理方式？

相关文章

初识IV值、WOE

谈谈 WOE和IV

WOE与IV值

WOE IV KS指标

（一）python-申请评分卡模型

WoE 和 IV

模型变量选择方法-IV值WOE

(转)逻辑回归中常用的概念： WOE、IV详解

woe与iv （python）

WOE、IV、PSI介绍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读