数据分析案例（四）——评分卡模型（二）

数据分析案例（四）——评分卡模型（二）

作者: 番茄酱的汪 | 来源:发表于2020-03-28 14:29 被阅读0次

数据分析案例（四）——评分卡模型（二）
数据分析案例（四）——评分卡模型（四）
数据分析案例（四）——评分卡模型（一）
数据分析案例（四）——评分卡模型（三）
基于Python的信用评分卡模型分析（二）
信用评分模型开发-基于R语言（1）
信用评分模型开发
申请评分卡目录
基于python 信用卡评分系统的数据分析
评分卡模型

本文章关于有监督分箱的方法：

Best KS法

基本原理：分箱后各个组别的分布差异化最大（bad rate - good rate，最大化的点）
典型操作步骤（连续变量为例）：
1. 按数值大小排序
2. 选取使KS值达到最大的数值作为拆分点
3. 重复以上2-3步骤，直到满足终止条件
终止条件：
1. 分箱后最小区段占比低于指定与之（常用5%）
2. 分箱后对应的箱体因变量位常量（都是好样本、坏样本）
3. 分箱后bad rate 应该呈现单调趋势，如果是波动趋势，则应该停止
方法缺陷：只能针对因变量位两分类的情形进行分箱。这个比较简单，没有卡方分箱比较好

卡方分箱

自底向上（基于合并的）数据离散化方法
它依赖于卡方检验，将具有最小卡方值的相邻区域合并在一起，知道满足确定的停止准则
基本思想：相似类的分布在一个区间内应当完全一直
1. 如果两个相邻的区间具有非常相似的类分布，则这两个区间可以合并
2. 否则，它们应当保持分开
3. 利用卡方值来衡量他们是否具有相似的类分布
步骤
1. 事先设定卡方阈值
- $\alpha$ 常取0.1，0.05，0.01，最小区间数取5-10
- 需要多种分箱结果相互比较，因此阈值的设定不存在金标准，还是要根据经验
1. 初始化
- 连续变量按取值排序
- 分类变量按bad rate进行排序（类别：A,B,C，bad rate分别是：0.1,0.4,0.3,那么A和C合并比较好）
1. 合并区间
- 计算各相邻区间的卡方值（四个表卡方）
- 将卡方值最小的一对区间合并，且两组的卡方阈值没有超过事先设定的，则说明这两个组别在统计上差别很小
- 重复上述过程，直到最小卡方值高于阈值，或者分箱数等于指定的最低数值
  如果卡方值越大，二者偏差程度越大

分箱判断好坏

WOE:证据权重

$WOE = ln(好客户占比/坏客户占比) * 100$

分箱之后，WOE是要成单调趋势比较好，不能又增又减
甄别出分箱是否合格

IV(信息值）变量预测重要性的判断指标

既可以判断这个变量用来建模的重要性，还可以判断同一个变量的哪个分箱策略更好一些
$IV = \sum{(好客户占比 - 坏客户占比) \times ln(好客户占比/坏客户占比) }$
好坏客户分离度
IV值越大，说明分箱效果越好
IV可以用于筛选变量，简化模型，降低模型开发的使用成本（分箱之后计算iv值，取前n个最大的）
经验界值
- IV<0.02 ，该变量基本无帮助
- 0.02<=IV<=0.1，该变量对预测目标变量又一些帮助
- 0.1<=IV<=0.3,又较大帮助
- 0.3<=IV，有很大帮助，但是可以取深挖到底是什么原因，可以进行
- IV>=0.5,该变量多半有问题，此时需要检查背后的逻辑，常见于时间变量，于结局变量有很大的关系
  IV和分箱的数量也有关系，数量越多，IV值就容易高，所以在考虑值的时候，对于多的箱体，可以实当提高一下界值

相关文章

数据分析案例（四）——评分卡模型（二）
本文章关于有监督分箱的方法： Best KS法基本原理：分箱后各个组别的分布差异化最大（bad rate - g...
数据分析案例（四）——评分卡模型（四）
拖了好久忘记了我的评分卡模型的拟写。这一次稍微好好写一下。本文章主要是写一下评分卡建模的主要流程一、建模思路二...
数据分析案例（四）——评分卡模型（一）
一、业务学习 1 信用体系：金融市场风险包括：市场风险，信用风险，流动性风险，操作风险信用风险：交易对手未能履...
数据分析案例（四）——评分卡模型（三）
模型结果转换成信用评分卡，模型区分度衡量指标信用评分需要满足的三点要求控制评分在一定范围内，例如0-1000分...
基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析（一）已经介绍了信用评分卡模型的数据预处理、探索性数据分析、变量分箱...
信用评分模型开发-基于R语言（1）
目录评分卡开发流程数据的获取与整合探索性数据分析特征选择粗分类与WOE变换模型评估评分卡开发模型监...
信用评分模型开发
信用评分模型可用“四张卡”来表示，分别是 A卡（Application score card，申请评分卡）、B卡（...
申请评分卡目录
申请评分卡（1）——相关概念申请评分卡（2）——评分卡模型开发申请评分卡（3）——建模（R）
基于python 信用卡评分系统的数据分析
基于python 信用卡评分系统的数据分析
评分卡模型
逻辑回归评分卡模型https://zhuanlan.zhihu.com/p/36539125总结: 数据分箱分箱...

网友评论

本文标题：数据分析案例（四）——评分卡模型（二）

本文链接：https://www.haomeiwen.com/subject/tznjuhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据分析案例（四）——评分卡模型（二）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！