数据分析案例（四）——评分卡模型（三）

数据分析案例（四）——评分卡模型（三）

作者: 番茄酱的汪 | 来源:发表于2020-03-29 12:26 被阅读0次

数据分析案例（四）——评分卡模型（三）
数据分析案例（四）——评分卡模型（四）
数据分析案例（四）——评分卡模型（一）
数据分析案例（四）——评分卡模型（二）
基于Python的信用评分卡模型分析（二）
信用评分模型开发-基于R语言（1）
信用评分模型开发
申请评分卡目录
基于python 信用卡评分系统的数据分析
评分卡模型

模型结果转换成信用评分卡，模型区分度衡量指标

信用评分需要满足的三点要求

控制评分在一定范围内，例如0-1000分之内

FICO：300-800
正整数

在特定分数时，好客户和坏客户具有一定的比例关系odds，例如希望在评分制为500份时，好客户和坏客户的比例为50：1
（平均分数时，是抽样比例）

有时也被称为评分校准

评分值变动时应该能够反映好客户和坏客户比例关系的变化，例如希望评分值每增加50分的时候，odds也增加一倍，

PDO:points to double the odds,使odds增加一倍所需要增加的分值。
PTO:points to triple the odds,使odds增加2倍所需要增加的分值。

业界通用的评分计算公式

$Score = Offset + Factor \times ln(odds)$
$Score + PDO = Offset + Factor \times ln(2\times odds)$

联立求解
$Factor = PDO / ln(2)$
$Offset = BaseScore - Factor \times ln(odds)$
与logistics回归结果结合(logit是坏样本的概率）
$ln(odds) = -logit(P) = -(\alpha + \sum{(\beta \times WOE)})$
由于自变量已经分箱处理，所以我们用的自变量其实是分箱之后的WOE
为什么这样看这里：WOE转换

这样就是一个线性关系了

对于每一个箱体分箱
- n为变量数

新增-个人思考

首先要理解:优势比
- $Odds = p/（1-p）$
  假设p是某件事情发生的概率，这里的p是违约发生的概率。
然后是:证据权重
- $WOE = ln(Bad#)$
  （待完善。。）

模型区分度衡量指标

1.KS（Kolmogorov-Smirnov）

是衡量分数区分能力的指标
横轴：信用评分值
纵轴：累计百分比
两条曲线：
- 分别代表好客户累计占比和坏客户累计占比
- 在模型有效的情况下，坏客户曲线应该在好客户曲线智商
- 这两条曲线距离越远，则模型效果越好
KS=两条钱的相差最大值
- 一般认为区分度在30%以上的模型是可以接受的
  (今晚问了一个做风控的大神，说是40%，还说不怎么看roc)

2. Gini Score

$Gini=2\sum{\frac{n}{N}(1-p_{i})p_{i}}$
数值越低，表明划分纯度越高

3.Divergence Score离散度评分

$Divergence=\frac{( \mu_{good} - \mu_{bad})^{2}}{(VAR_{good}+VAR_{bad})/2}$

模型预测能力衡量指标

1. AR（Accuracy Ratio）

是整体衡量分数预测能力的指标
需要完整的表现期，时间上会滞后（新进来样本的监控）
取值位于[-1,1]

2. Kendall's Tau（ $\tau$ ）

衡量分数升降单调性的指标
如果模型正确，则低分数段的实际逾期率应当严格大于高分数段
$\tau$ 类似于相关系数，用于有序变量间的非参数相关性测量指标
取值范围-1~1,绝对值越大则表示关系强度越高
将分数划分为十组，计算各组的逾期率r（重新划分）
- 如果 $r_{i},r_{j}$ 的大小关系和i,j一致，则为同顺序对
- $\tau=\frac{同顺序对子数-异顺序对子数}{n(n-1)/2}$

模型稳定性衡量指标

1.PSI（Population Stability Index）

人群分布不变时，评分卡的计算结果应当基本稳定
按分数分档后，针对不同样本、或者不同时间的样本，考察各个分数区间内人数占总数的占比是否有明显变化
$PSI= \sum{[(Ac-Ex)*ln(\frac{Ac}{Ex})]}$
经验界值
- <10%:无需更新模型
- 10-25%：检查其他度量方式
- 大于25%：需要更新模型
注意：PSI数值与分段方式有关，所以应该保持不变

2.迁移矩阵(Migration Matrix):衡量分数的迁移状况

PSI 是针对分数整体进行考察，对应的个体可能并不相同
迁移矩阵是对同一个个体进行重复观察和比较

对相同的人群，观察向量两次监控周期中的分数迁移变化
实际计算中可以将分数段十等分，然后计算着十组间的迁移矩阵

缺点：只能定性判断，究竟迁移率达到多少，很难给出模型稳定性的判断标准

3. 检查逾期违约率的保守性

当发现有分组的逾期违约率低于实际违约率时，需要进行二项分布检验

相关文章

数据分析案例（四）——评分卡模型（三）
模型结果转换成信用评分卡，模型区分度衡量指标信用评分需要满足的三点要求控制评分在一定范围内，例如0-1000分...
数据分析案例（四）——评分卡模型（四）
拖了好久忘记了我的评分卡模型的拟写。这一次稍微好好写一下。本文章主要是写一下评分卡建模的主要流程一、建模思路二...
数据分析案例（四）——评分卡模型（一）
一、业务学习 1 信用体系：金融市场风险包括：市场风险，信用风险，流动性风险，操作风险信用风险：交易对手未能履...
数据分析案例（四）——评分卡模型（二）
本文章关于有监督分箱的方法： Best KS法基本原理：分箱后各个组别的分布差异化最大（bad rate - g...
基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析（一）已经介绍了信用评分卡模型的数据预处理、探索性数据分析、变量分箱...
信用评分模型开发-基于R语言（1）
目录评分卡开发流程数据的获取与整合探索性数据分析特征选择粗分类与WOE变换模型评估评分卡开发模型监...
信用评分模型开发
信用评分模型可用“四张卡”来表示，分别是 A卡（Application score card，申请评分卡）、B卡（...
申请评分卡目录
申请评分卡（1）——相关概念申请评分卡（2）——评分卡模型开发申请评分卡（3）——建模（R）
基于python 信用卡评分系统的数据分析
基于python 信用卡评分系统的数据分析
评分卡模型
逻辑回归评分卡模型https://zhuanlan.zhihu.com/p/36539125总结: 数据分箱分箱...

网友评论

本文标题：数据分析案例（四）——评分卡模型（三）

本文链接：https://www.haomeiwen.com/subject/yyiyuhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据分析案例（四）——评分卡模型（三）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！