美文网首页模型
IV值的计算及使用

IV值的计算及使用

作者: 风控_平衡的艺术 | 来源:发表于2017-09-04 15:48 被阅读0次

1. IV值用途

在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。IV 值的取值范围是[0, 正无穷),如果当前分组中只包含响应客户或者未响应客户时,IV = 正无穷。量化指标含义如下:< 0.02useless for prediction、0.02 to 0.1Weak predictor、0.1 to 0.3Medium predictor、0.3 to 0.5Strong predictor 、>0.5 Suspicious or too good to be true。


2. IV值计算

在介绍IV值的计算公式之前,先引入WOE的概念,因为IV值的计算是以WOE为基础的。

2.1 WOE

WOE的全称是“weight of evidence”,即证据权重。直观上讲,WOE是对原始变量的一种编码形式,要对一个变量进行WOE编码,首先需要把这个变量进行分组处理,即分箱或者离散化,常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。分组后,对于第 i 组,WOE的计算公式见下图。

WOE计算公式

WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异。

2.2 IV值计算公式

IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组 i ,其对应的IV值参考下图,其中n是分组个数,注意,在变量的任何分组中,不应该出现响应数为0或非响应数位0的情况,当变量的一个分组的响应数位0时,对应的woe就为负无穷,此时IV值为正无穷。如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件

单个分组IV值计算公式

计算了一个变量各个组的 IV 值之后,我们就可以计算整个变量的 IV 值:

IV值计算公式

在建模过程中,IV值主要用于特征选择,如果想要对变量的预测能力进行排序的话,可以按 IV 值从高到低筛选即可。


3. WOE和IV值的区别

WOE 和 IV 都能表达某个分组对目标变量的预测能力。但实际中,我们通常选择 IV 而不是 WOE 的和来衡量变量预测的能力,这是为什么呢?首先,因为我们在衡量一个变量的预测能力时,我们所使用的指标值不应该是负数。从这意义上来说,IV 比 WOE 多乘以前面那个因子,就保证了它不会是负数;然后,乘以(Pyi−Pni)这个因子,体现出了变量当前分组中个体的数量占整体的比例,从而很好考虑了这个分组中样本占整体的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用 WOE 的绝对值加和,会因为该分组出现次数偏少的影响而得到一个很高的指标。


4. Python实现


IV值计算

5. 引用

(a) ucanalytics.com/blogs/information-value-and-weight-of-evidencebanking-case/

(b) blog.sina.com.cn/s/blog_8813a3ae0102uyo3.html

(c) pengshuang.space/2017/02/27/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-%E8%AF%84%E5%88%86%E5%8D%A1%E6%A8%A1%E5%9E%8B/ 

相关文章

  • IV值的计算及使用

    1. IV值用途 在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码...

  • (一)python-申请评分卡模型

    简介 本文通过使用LendingClub的数据,采用卡方分箱(ChiMerge)、WOE编码、计算IV值、单变量和...

  • python计算IV值

    1. 代码 基于jupyter notebook 2. 数据 读取数据df = pd.read_csv("tele...

  • 群体遗传学三-LD

    使用PopLDdecay进行LD值的计算及绘图

  • WOE与IV值

    原文链接:WOE与IV值 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 计算WOE...

  • pandas中级操作示例及说明记录1

    pandas中级操作示例及说明记录1 计算每行(即所有列)的mean值 计算列(即所有行)的mean值 计算每个值...

  • 【干货】计算机及互联网公司近十年估值方法最全总结

    1、计算机及互联网公司估值问题背景简介 1.1、计算机及互联网公司估值思路与估值难点 计算机公司与互联网公司的估值...

  • 初识IV值、WOE

    IV值的简单说明 IV,即information value,中文含义为信息价值,或者说信息量 当现实中,我们进行...

  • 第四章计算属性

    为了简化逻辑,当某个属性的值依赖其他属性的值,我们可以使用计算属性 什么是计算属性 计算属性就是当其依赖属性的值发...

  • WOE IV KS指标

    WOE和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本...

网友评论

    本文标题:IV值的计算及使用

    本文链接:https://www.haomeiwen.com/subject/zzeejxtx.html