美文网首页
风控评估指标浅析与实现 - KS、WOE、IV

风控评估指标浅析与实现 - KS、WOE、IV

作者: Simple丶Plan | 来源:发表于2019-12-14 10:47 被阅读0次

1. 前言

风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。

2. KS

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之,便是好人的程度与坏人的程度之差。

ks_i = \left |\frac{cumulative\:good_i}{total} - \frac{cumulative\:bad_i}{total}\right |\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下,KS 越高,越能反映特征或者模型的风险区分能力,完美的信用分分布是正态分布的。现实状态下,大于 0.9 就过于高了, 这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说, KS 在 0.3 以上时才勉强可用于生产,风险区分效果一般。

同时,KS 的后期观测也相当重要,在后续的监控中, KS 若出现持续下降, 有可能是市场发生了变化,客群发生变化,或者模型本身不太稳定,所以训练模型时训练集与验证集的对比也相当重要,两者 KS 差距较大,说明模型过拟合,或泛化能力不强。

3. WOE

WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。

woe_i = ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

i 表示第 i 分段。也可转换后得到,

woe_i = ln(\frac{bad_i}{good_i} / \frac{bad\: total}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。

同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该特征的分布将会是单调的。

通过 WOE 变换,同时保持 WOE 曲线具备单调性,带来的好处在于特征值与 y 值具备正(负)相关性,例如我们定义坏用户为 1 时,特征值越大,预测为坏人的概率将越高。

4. IV

IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*woe_i\:,\:\:\:\:\:i=(1,2,...,10)

iv_i=(\frac{bad_i}{bad\: total}-\frac{good_i}{good\: total})*ln(\frac{bad_i}{bad\: total} / \frac{good_i}{good\: total})\:,\:\:\:\:\:i=(1,2,...,10)

整个特征的 IV 值则为每段 IV 值之和,可得

iv=\sum_{i}^{n}iv_i\:,\:\:\:\:\:i=(1,2,...,10)

当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WOE 值很大,但是该分段的个体数占总体数量中很小的比例,这 WOE 便不具备整体的代表性,因为其对于整体的贡献太小,IV 值也会很小。因此,使用 IV 值作为判断预测能力的指标。

4. python 实现

常常需要计算这些指标,对于每次都要跑大批量的特征,感觉异常烦躁,提高效率还是有必要,把这些指标整合起来写了个库,调用出结果。后来更懒了,写了层图形界面套上去,鼠标点一点就完事,及其舒适。果真懒才是人类进步的发动机。
源码: https://github.com/lianxiangtao/KS_IV


如果文章对你有所帮助,请不要吝啬手中的赞哦。心情会美美哒。
WX: xianyu_splash,本公众号用于记录本人学习历程、基础技术,分享日常灵感、优质工具,欢迎关注!共同进步!

5. 参考资料

  1. 风控模型—WOE与IV指标的深入理解应用
  2. 【详解】银行信用评分卡中的WOE在干什么?
  3. 评分卡模型中的IV和WOE详解

相关文章

  • 风控评估指标浅析与实现 - KS、WOE、IV

    1. 前言 风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。 2. KS KS 是用...

  • WOE IV KS指标

    WOE和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本...

  • 谈谈 WOE和IV

    谈谈 WOE和IV[WOE] weight of evidence ,即证据权重;[IV] information...

  • 风控指标解读——WOE

    1 WOE的概念 从定义上看,逾期率越低的区间,woe值越小,当接近样本的平均逾期率时,woe值会发生符号转变,通...

  • WOE与IV值

    原文链接:WOE与IV值 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 计算WOE...

  • woe与iv (python)

    https://blog.csdn.net/kevin7658/article/details/50780391 ...

  • 二元分类特征的选择:IV值

    IV值(Information Value),即信息价值指标,是评分卡模型中的一个常见指标,在金融风控领域得到了广...

  • 信贷风控的基础:评分卡,iv,woe,vif

    流程 数据分箱 Bining 就是数据分组,数据预处理技术,如果是学图像算法的工程师,图像的分割就是一种数据分箱技...

  • WoE 和 IV

    1. 如何计算WoE 具体计算示例结果如下: 2. WoE的使用 将一个连续的独立变量转化成基于非独立变量分布的相...

  • 风险信用评分卡相关文章总结

    基于Python的信用评分卡建模分析 【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配 异常值检测 ...

网友评论

      本文标题:风控评估指标浅析与实现 - KS、WOE、IV

      本文链接:https://www.haomeiwen.com/subject/kfqjgctx.html