美文网首页
数据分析案例(四)——评分卡模型(三)

数据分析案例(四)——评分卡模型(三)

作者: 番茄酱的汪 | 来源:发表于2020-03-29 12:26 被阅读0次

模型结果转换成信用评分卡,模型区分度衡量指标

信用评分需要满足的三点要求

  1. 控制评分在一定范围内,例如0-1000分之内
  • FICO:300-800
  • 正整数
  1. 在特定分数时,好客户和坏客户具有一定的比例关系odds,例如希望在评分制为500份时,好客户和坏客户的比例为50:1
    (平均分数时,是抽样比例)
  • 有时也被称为评分校准
  1. 评分值变动时应该能够反映好客户和坏客户比例关系的变化,例如希望评分值每增加50分的时候,odds也增加一倍,
  • PDO:points to double the odds,使odds增加一倍所需要增加的分值。
  • PTO:points to triple the odds,使odds增加2倍所需要增加的分值。

业界通用的评分计算公式

Score = Offset + Factor \times ln(odds)
Score + PDO = Offset + Factor \times ln(2\times odds)

  • 联立求解
    Factor = PDO / ln(2)
    Offset = BaseScore - Factor \times ln(odds)
  • 与logistics回归结果结合(logit是坏样本的概率)
    ln(odds) = -logit(P) = -(\alpha + \sum{(\beta \times WOE)})
    由于自变量已经分箱处理,所以我们用的自变量其实是分箱之后的WOE
    为什么这样看这里:WOE转换

这样就是一个线性关系了

  • 对于每一个箱体分箱Score = Offset/n -Factor \times (\alpha/n+ \beta \times WOE)
    • n为变量数

新增-个人思考

  • 首先要理解Odds:优势比
    • Odds = p/(1-p)
      假设p是某件事情发生的概率,这里的p是违约发生的概率。
  • 然后是WOE:weight \ of \ evidence:证据权重
    • WOE = ln(Bad#)
      (待完善。。)

模型区分度衡量指标

1.KS(Kolmogorov-Smirnov)

  • 是衡量分数区分能力的指标
  • 横轴:信用评分值
  • 纵轴:累计百分比
  • 两条曲线:
    • 分别代表好客户累计占比和坏客户累计占比
    • 在模型有效的情况下,坏客户曲线应该在好客户曲线智商
    • 这两条曲线距离越远,则模型效果越好
  • KS=两条钱的相差最大值
    • 一般认为区分度在30%以上的模型是可以接受的
      (今晚问了一个做风控的大神,说是40%,还说不怎么看roc)

2. Gini Score

  • Gini=2\sum{\frac{n}{N}(1-p_{i})p_{i}}
  • 数值越低,表明划分纯度越高

3.Divergence Score离散度评分

  • Divergence=\frac{( \mu_{good} - \mu_{bad})^{2}}{(VAR_{good}+VAR_{bad})/2}

模型预测能力衡量指标

1. AR(Accuracy Ratio)

  • 是整体衡量分数预测能力的指标
  • 需要完整的表现期,时间上会滞后(新进来样本的监控)
  • 取值位于[-1,1]

2. Kendall's Tau(\tau

  • 衡量分数升降单调性的指标
  • 如果模型正确,则低分数段的实际逾期率应当严格大于高分数段
  • \tau类似于相关系数,用于有序变量间的非参数相关性测量指标
  • 取值范围-1~1,绝对值越大则表示关系强度越高
  • 将分数划分为十组,计算各组的逾期率r(重新划分)
    • 如果r_{i},r_{j}的大小关系和i,j一致,则为同顺序对
    • \tau=\frac{同顺序对子数-异顺序对子数}{n(n-1)/2}

模型稳定性衡量指标

1.PSI(Population Stability Index)

  • 人群分布不变时,评分卡的计算结果应当基本稳定
  • 按分数分档后,针对不同样本、或者不同时间的样本,考察各个分数区间内人数占总数的占比是否有明显变化
  • PSI= \sum{[(Ac-Ex)*ln(\frac{Ac}{Ex})]}
  • 经验界值
    • <10%:无需更新模型
    • 10-25%:检查其他度量方式
    • 大于25%:需要更新模型
  • 注意:PSI数值与分段方式有关,所以应该保持不变

2.迁移矩阵(Migration Matrix):衡量分数的迁移状况

  • PSI 是针对分数整体进行考察,对应的个体可能并不相同
  • 迁移矩阵是对同一个个体进行重复观察和比较
  • 对相同的人群,观察向量两次监控周期中的分数迁移变化
  • 实际计算中可以将分数段十等分,然后计算着十组间的迁移矩阵

缺点:只能定性判断,究竟迁移率达到多少,很难给出模型稳定性的判断标准

3. 检查逾期违约率的保守性

  • 当发现有分组的逾期违约率低于实际违约率时,需要进行二项分布检验

相关文章

网友评论

      本文标题:数据分析案例(四)——评分卡模型(三)

      本文链接:https://www.haomeiwen.com/subject/yyiyuhtx.html