WOE与IV值

WOE与IV值

作者: 三猫后端 | 来源:发表于2018-08-12 22:35 被阅读3次

WOE与IV值
谈谈 WOE和IV
初识IV值、WOE
WOE IV KS指标
（一）python-申请评分卡模型
woe与iv （python）
WoE 和 IV
模型变量选择方法-IV值WOE
风险信用评分卡相关文章总结
(转)逻辑回归中常用的概念： WOE、IV详解

原文链接：WOE与IV值

微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings

计算WOE和IV是评分卡模型的一个重要环节，之前没有仔细研究过，但总觉得他们既然可以放在评分卡模型中去解决相应的问题，那应该也可以放在其他模型中解决相似的问题，所以还是很值得研究一下。下文是自己对这两个指标的理解整理。

应用场景

WOE和IV主要用来判断变量的预测强度，比如判断用户收入对用户是否会发生逾期的预测强度。因此，两个值的使用主要是在有监督的分类问题中，具体可以细化到如下方面：

指导变量离散化。在建模过程中，时常需要对连续变量进行离散化处理，如将年龄进行分段。但是变量不同的离散化结果（如：年龄分为［0-20］还是［0-15］）会对模型产生不同影响。因此，可以根据指标所反应的预测强度，调整变量离散化结果。（对一些取值很多的分类变量，在需要时也可以对其进行再分组，实现降维。）

变量筛选。我们需要选取比较重要的变量加入模型，预测强度可以作为我们判断变量是否重要的一个依据。

WOE（Weight of Evidence）

我们使用german credit数据来解释WOE及后面的IV值。german credit数据集包括了用户状态，信用历史，是否有工作，财产状况等属性，和是否发生违约标签。

german credit中一共有1000条数据，其中700条为未违约用户，300条为违约样本。我们选取savings这个分类字段进行相应解释，以此省去之前的离散化操作。此字段共有5个取值，具体如下：

每个取值代表一个分组，每个分组中好坏样本数如下，其中1代表未违约，2代表违约：

统计好后，就可以进行WOE值的计算，WOE公式如下：

P(yi)代表第i组中，违约样本占所有违约样本的比例；

P(ni)代表第i组中，未违约样本占所有未违约样本比例；

y：所有违约样本数；

n：所有未违约样本数。

经过变换，上述式子可以变为

根据对数变换曲线，可知，WOE取值为全体实数，且在大于0部分，WOE越大表示分组中存在违约样本可能性越大（正向作用），小于0部分，WOE越小则越表示了一种反向作用。因此，WOE反映了自变量取值对目标变量的影响。经过计算，得到相应的WOE值：

以savings变量取A61时为例，对应的woe＝ln（（217/300）／（386／700））。WOE没有考虑分组中样本占整体样本的比例，如果一个分组的WOE值很高，但是样本数占整体样本数很低，则对变量整体预测的能力会下降。因此，我们还需要计算IV值。

IV（Information Value）

IV值考虑了分组中样本占整体样本的比例，相当于WOE的加权求和。具体计算公式如下：

根据上面的公式，我们可以得到savings字段各取值IV值及字段总体IV值:

R语言实现

针对此特定数据集，编写了如下函数，计算WOE与IV：

调用后得到相关结果：

推荐文章

· Bagging算法(R语言)

·静态爬虫与地址经纬度转换(python)

·特征工程(一):前向逐步回归(R语言)

·聚类(三):KNN算法(R语言)

·小案例(六)：预测小偷行为（python）

·ggplot2:正负区分条形图及美化

扫描二维码，关注我们。

如需转载，请在开篇显著位置注明作者和出处，并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧！

相关文章

WOE与IV值
原文链接：WOE与IV值微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings 计算WOE...
谈谈 WOE和IV
谈谈 WOE和IV[WOE] weight of evidence ，即证据权重；[IV] information...
初识IV值、WOE
IV值的简单说明 IV，即information value，中文含义为信息价值，或者说信息量当现实中，我们进行...
WOE IV KS指标
WOE和IV使用来衡量变量的预测能力，值越大，表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本...
（一）python-申请评分卡模型
简介本文通过使用LendingClub的数据，采用卡方分箱（ChiMerge）、WOE编码、计算IV值、单变量和...
woe与iv （python）
https://blog.csdn.net/kevin7658/article/details/50780391 ...
WoE 和 IV
1. 如何计算WoE 具体计算示例结果如下: 2. WoE的使用将一个连续的独立变量转化成基于非独立变量分布的相...
模型变量选择方法-IV值WOE
1.IV的用途 IV的全称是InformationValue，中文意思是信息价值，或者信息量。我们在用逻辑回归、...
风险信用评分卡相关文章总结
基于Python的信用评分卡建模分析【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配异常值检测 ...
(转)逻辑回归中常用的概念： WOE、IV详解
为了挑选并构造出对目标变量有较高预测力的自变量，需要对变量进行WOE编码，通过IV值的看变量的贡献。运用场景根...

网友评论

本文标题：WOE与IV值

本文链接：https://www.haomeiwen.com/subject/sxmebftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

玩转大数据

机器学习与数据挖掘

大数据，机器学习，人工智能

热点阅读

玩转大数据

大数据

机器学习与数据挖掘

大数据，机器学习，人工智能

关于我们|服务条款|联系我们|WOE与IV值|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！