风控评估指标浅析与实现 - KS、WOE、IV

作者: Simple丶Plan | 来源:发表于2019-12-14 10:47 被阅读0次

风控评估指标浅析与实现 - KS、WOE、IV
WOE IV KS指标
谈谈 WOE和IV
风控指标解读——WOE
WOE与IV值
woe与iv （python）
二元分类特征的选择：IV值
信贷风控的基础：评分卡，iv，woe，vif
WoE 和 IV
风险信用评分卡相关文章总结

1. 前言

风控工作中，不管是特征工程、特征筛选、建模都常常涉及到的几个指标，简单总结下。

2. KS

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之，便是好人的程度与坏人的程度之差。

$ks_i = \left |\frac{cumulative\:good_i}{total} - \frac{cumulative\:bad_i}{total}\right |\:,\:\:\:\:\:i=(1,2,...,10)$

$i$ 表示第 $i$ 分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下，KS 越高，越能反映特征或者模型的风险区分能力，完美的信用分分布是正态分布的。现实状态下，大于 0.9 就过于高了，这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说， KS 在 0.3 以上时才勉强可用于生产，风险区分效果一般。

同时，KS 的后期观测也相当重要，在后续的监控中， KS 若出现持续下降，有可能是市场发生了变化，客群发生变化，或者模型本身不太稳定，所以训练模型时训练集与验证集的对比也相当重要，两者 KS 差距较大，说明模型过拟合，或泛化能力不强。

3. WOE

WOE 全拼 Weight of Evidence，即证据权重，用于风险评估、授信评分卡等。

$woe_i = ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

$i$ 表示第 $i$ 分段。也可转换后得到，

$woe_i = ln(\frac{bad_i}{good_i} / \frac{bad\: total}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

从上公式可知，WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大，差异越大，好用户的可能性越大。

同时 WOE 变换常应用于特征工程，当我们对某些特征变量进行等频或等距等分箱后发现，发现每级分段 WOE 不满足单调性时（大部分为离散型变量），进行 WOE 变换，即采用对应每分段的 WOE 值替换掉特征原始值，此时该特征的分布将会是单调的。

通过 WOE 变换，同时保持 WOE 曲线具备单调性，带来的好处在于特征值与 y 值具备正（负）相关性，例如我们定义坏用户为 1 时，特征值越大，预测为坏人的概率将越高。

4. IV

IV 全拼 information value，即信息价值，是衡量特征对于模型预测能力的指标，常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

$iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*woe_i\:,\:\:\:\:\:i=(1,2,...,10)$

$iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)$

整个特征的 IV 值则为每段 IV 值之和，可得

$iv=\sum_{i}^{n}iv_i\:,\:\:\:\:\:i=(1,2,...,10)$

当特征的 IV 值越大，该特征的信息价值就越大，对于判断客户好坏的贡献越大，这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标，因为 WOE 有正负值，而 IV 只会是正值。最重要的是，WOE 值没有体现出当前分段的个体数在总体数量中的比例，举个例子，若某个分段的 WOE 值很大，但是该分段的个体数占总体数量中很小的比例，这 WOE 便不具备整体的代表性，因为其对于整体的贡献太小，IV 值也会很小。因此，使用 IV 值作为判断预测能力的指标。

4. python 实现

常常需要计算这些指标，对于每次都要跑大批量的特征，感觉异常烦躁，提高效率还是有必要，把这些指标整合起来写了个库，调用出结果。后来更懒了，写了层图形界面套上去，鼠标点一点就完事，及其舒适。果真懒才是人类进步的发动机。
源码: https://github.com/lianxiangtao/KS_IV

如果文章对你有所帮助，请不要吝啬手中的赞哦。心情会美美哒。
WX: xianyu_splash，本公众号用于记录本人学习历程、基础技术，分享日常灵感、优质工具，欢迎关注！共同进步！

5. 参考资料

风控评估指标浅析与实现 - KS、WOE、IV
1. 前言风控工作中，不管是特征工程、特征筛选、建模都常常涉及到的几个指标，简单总结下。 2. KS KS 是用...
WOE IV KS指标
WOE和IV使用来衡量变量的预测能力，值越大，表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本...
谈谈 WOE和IV
谈谈 WOE和IV[WOE] weight of evidence ，即证据权重；[IV] information...
风控指标解读——WOE
1 WOE的概念从定义上看，逾期率越低的区间，woe值越小，当接近样本的平均逾期率时，woe值会发生符号转变，通...
WOE与IV值
原文链接：WOE与IV值微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings 计算WOE...
woe与iv （python）
https://blog.csdn.net/kevin7658/article/details/50780391 ...
二元分类特征的选择：IV值
IV值（Information Value），即信息价值指标，是评分卡模型中的一个常见指标，在金融风控领域得到了广...
信贷风控的基础：评分卡，iv，woe，vif
流程数据分箱 Bining 就是数据分组，数据预处理技术，如果是学图像算法的工程师，图像的分割就是一种数据分箱技...
WoE 和 IV
1. 如何计算WoE 具体计算示例结果如下: 2. WoE的使用将一个连续的独立变量转化成基于非独立变量分布的相...
风险信用评分卡相关文章总结
基于Python的信用评分卡建模分析【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配异常值检测 ...