美文网首页
数据分析案例(四)——评分卡模型(三)

数据分析案例(四)——评分卡模型(三)

作者: 番茄酱的汪 | 来源:发表于2020-03-29 12:26 被阅读0次

    模型结果转换成信用评分卡,模型区分度衡量指标

    信用评分需要满足的三点要求

    1. 控制评分在一定范围内,例如0-1000分之内
    • FICO:300-800
    • 正整数
    1. 在特定分数时,好客户和坏客户具有一定的比例关系odds,例如希望在评分制为500份时,好客户和坏客户的比例为50:1
      (平均分数时,是抽样比例)
    • 有时也被称为评分校准
    1. 评分值变动时应该能够反映好客户和坏客户比例关系的变化,例如希望评分值每增加50分的时候,odds也增加一倍,
    • PDO:points to double the odds,使odds增加一倍所需要增加的分值。
    • PTO:points to triple the odds,使odds增加2倍所需要增加的分值。

    业界通用的评分计算公式

    Score = Offset + Factor \times ln(odds)
    Score + PDO = Offset + Factor \times ln(2\times odds)

    • 联立求解
      Factor = PDO / ln(2)
      Offset = BaseScore - Factor \times ln(odds)
    • 与logistics回归结果结合(logit是坏样本的概率)
      ln(odds) = -logit(P) = -(\alpha + \sum{(\beta \times WOE)})
      由于自变量已经分箱处理,所以我们用的自变量其实是分箱之后的WOE
      为什么这样看这里:WOE转换

    这样就是一个线性关系了

    • 对于每一个箱体分箱Score = Offset/n -Factor \times (\alpha/n+ \beta \times WOE)
      • n为变量数

    新增-个人思考

    • 首先要理解Odds:优势比
      • Odds = p/(1-p)
        假设p是某件事情发生的概率,这里的p是违约发生的概率。
    • 然后是WOE:weight \ of \ evidence:证据权重
      • WOE = ln(Bad#)
        (待完善。。)

    模型区分度衡量指标

    1.KS(Kolmogorov-Smirnov)

    • 是衡量分数区分能力的指标
    • 横轴:信用评分值
    • 纵轴:累计百分比
    • 两条曲线:
      • 分别代表好客户累计占比和坏客户累计占比
      • 在模型有效的情况下,坏客户曲线应该在好客户曲线智商
      • 这两条曲线距离越远,则模型效果越好
    • KS=两条钱的相差最大值
      • 一般认为区分度在30%以上的模型是可以接受的
        (今晚问了一个做风控的大神,说是40%,还说不怎么看roc)

    2. Gini Score

    • Gini=2\sum{\frac{n}{N}(1-p_{i})p_{i}}
    • 数值越低,表明划分纯度越高

    3.Divergence Score离散度评分

    • Divergence=\frac{( \mu_{good} - \mu_{bad})^{2}}{(VAR_{good}+VAR_{bad})/2}

    模型预测能力衡量指标

    1. AR(Accuracy Ratio)

    • 是整体衡量分数预测能力的指标
    • 需要完整的表现期,时间上会滞后(新进来样本的监控)
    • 取值位于[-1,1]

    2. Kendall's Tau(\tau

    • 衡量分数升降单调性的指标
    • 如果模型正确,则低分数段的实际逾期率应当严格大于高分数段
    • \tau类似于相关系数,用于有序变量间的非参数相关性测量指标
    • 取值范围-1~1,绝对值越大则表示关系强度越高
    • 将分数划分为十组,计算各组的逾期率r(重新划分)
      • 如果r_{i},r_{j}的大小关系和i,j一致,则为同顺序对
      • \tau=\frac{同顺序对子数-异顺序对子数}{n(n-1)/2}

    模型稳定性衡量指标

    1.PSI(Population Stability Index)

    • 人群分布不变时,评分卡的计算结果应当基本稳定
    • 按分数分档后,针对不同样本、或者不同时间的样本,考察各个分数区间内人数占总数的占比是否有明显变化
    • PSI= \sum{[(Ac-Ex)*ln(\frac{Ac}{Ex})]}
    • 经验界值
      • <10%:无需更新模型
      • 10-25%:检查其他度量方式
      • 大于25%:需要更新模型
    • 注意:PSI数值与分段方式有关,所以应该保持不变

    2.迁移矩阵(Migration Matrix):衡量分数的迁移状况

    • PSI 是针对分数整体进行考察,对应的个体可能并不相同
    • 迁移矩阵是对同一个个体进行重复观察和比较
    • 对相同的人群,观察向量两次监控周期中的分数迁移变化
    • 实际计算中可以将分数段十等分,然后计算着十组间的迁移矩阵

    缺点:只能定性判断,究竟迁移率达到多少,很难给出模型稳定性的判断标准

    3. 检查逾期违约率的保守性

    • 当发现有分组的逾期违约率低于实际违约率时,需要进行二项分布检验

    相关文章

      网友评论

          本文标题:数据分析案例(四)——评分卡模型(三)

          本文链接:https://www.haomeiwen.com/subject/yyiyuhtx.html