评分模型的开发
步骤1 确定评分目的
步骤2 基本定义
观察期与绩效期

观察期一般是指预测变量的历史时间间隔,一般过长的话会没有办法反映出逾期的标签;如果过短的话会不太稳定,一般以6-12个月为观察期。
绩效期又叫表现期,也就是准备预测客户出现违约概率的时间长度,根据产品和客群的不同,通常预测时间长度为12-24个月。
违约定义
评分模型关键在于区分好坏用户,所以最重要的是定义坏用户(bad),坏用户不仅是逾期,包括催收,呆账等等。
灰色地带
有一些用户可能只出现了M1和M2的的逾期,这个有可能是因为用户忘记还款,往往在提醒后能够还上款,为了模型的好坏区分能力,这部分灰色地带的用户不适合作为模型的训练样本,但是可以作为后面验证模型分数分布的样本,这部分样本的分数应该大多数落在中间范围内。
选择好坏和灰色地带
一般来说,我们可以通过转移分析去查看,也就是将划分不同类别的用户在经过12个月以后再看它们所处的状态,看是否稳定,从而判定逾期的定义是否准确和稳定。

样本区间
一般来说需要按照客群和产品特性对样本进行不同的间隔区分,对每个客群或者产品做子模型或者做不同的分数准驳切点。
步骤3 资料准备
步骤4 变量分析
变量的形态可以分为连续变量和分类变量,首先要做变量的共线性分析,根据预测能力和稳定性选择其中一个就可以了。
接下来进行单因子分析。单因子分析主要是为了检测变量对好坏的区分能力。
包括woe分析和iv值分析。woe分析可以检测出一个变量在哪个区间段对好坏的区分程度最高,作为该变量的切分位点。iv值分析可以对比不同变量对于标签的预测能力。
一般来说,WOE的绝对值随着变量的值增大随之增大,说明预测效果比较好,好坏区分能力强。

为了使讯息值提高,需要把临近的分组进行合并,最后得到的是粗分组。重新计算iv值,通过iv值高低进行排序,从中挑选变量,排除稳定性不强,趋势异常,只选取高度相关的变量,作为短变量清单。可以用顺向进入法,反向排除法以及逐步回归法筛选入模变量。
步骤5 建立模型
一般来说,理想的分类模型应该是能够良好地区分出好坏用户的,但实际上由于真实场景中的坏用户比例是很低的,为了增强模型的预测能力,一般是将好坏用户的比例调整到3:1~5:1。并且会用70%的数据作为训练集,30%的数据作为后面的验证集。
一般二分类问题会采用逻辑回归模型,逻辑回归对于二分类的问题(0或者1)可以给出每个样本预测为正样本的概率大小,该概率大小可以映射为一个评分卡分数(score)。评分卡分数可以分为两个部分,一个是基础分数,也就是base score,另外一个是scale,也就是随着好坏比例的增长分数的增加幅度。
公式为:
逻辑回归可以得到,也就是好坏帐户的比例的对数。也称为胜算率。
scale为增长单位时分数增加的大小。
假设当odds从1:2增加到1:1的时候,score增加20
那么就有:
可以解出来scale=10
当odds为1:1的时候,score为50,那么带入公式可以解出
所以公式为
可以获得模型的对应的分数。
步骤6 婉拒推论(又叫拒绝推论)
信贷的流程:
用户接触到贷款平台->进件->审核->核准通过或者拒绝
我们用来构建模型的样本往往是通过第一道核准通过的,因此模型接触到的好坏样本分布与现实的好坏样本分布是不同的。因此我们需要加入在核准之前的部分坏样本,重新训练模型使得模型的预测能够更加接近实际的状况,进行模型修正。
整个流程大概如下:

常使用的婉拒推论的方法是「扩充法」。也就是使用有标签的样本训练出一个模型,模型去预测婉拒的样本,推测其好坏,将其加入到核准的有标签样本中重新训练模型。有两种扩充法,一种是「单纯扩充法」,另外一种是「分群法」。
单纯扩充法
单纯扩充法是直接根据训练的模型对婉拒的样本进行预测正样本的概率,以一定的阈值作为区分好坏的标准,将高于该阈值的作为正样本,其余为负样本,加入到原本的样本中重新训练。
分群法
分群法是指给原本核准的样本预测的分数或者概率进行从小到大分箱,计算每个分箱里面正负样本的比例,以模型去给婉拒样本预测为正样本的概率,同样从小到大分箱,以前面的核准样本的各个分箱里面正负样本的比例去随机抽取婉拒样本的正负比例。
步骤7 效力验证
效力验证包括两方面:「区分能力的验证」和「稳定性的验证」。验证的方式包括样本外的验证(out-of-sample validation)和时间外的验证(out-of-time validation)。
前者主要是校验模型在测试集上面的区分效果,后者主要是在时间维度上测量模型对于好坏样本区分的稳定性。
区分能力的验证
一般来说最优的模型都是能够把好坏完全区分开,然而现实是模型对于好坏的预测分数总是有一部分的重叠,但较优的模型都是预测坏用户的分数集中在低分段,好用户集中在高分数段。以下是模型对样本预测分数的理想,正常和较差的分布情况。

目前用来衡量区分能力大小的指标有ks值和auc。
ks值是先画出好坏客户的累积分布曲线,其中最大的差距就是ks value,就是max(bad%(累积)-good%(累积))。
ks值的解释能力

稳定性的验证
一般来说,建模都是根据某个时间段的样本去建模的,随着时间的延长有可能出现模型的稳定性降低最终失效的问题。用来衡量模型的稳定性一般用psi值。psi一般用来比较两个分布的差别。在风控,psi值用来衡量模型在预测某个时间点前后的样本的评分的分布差异。
psi的计算公式:
psi的解释能力

一般来说,模型上线以后还需要持续监控模型区分能力和稳定性,一旦发生比较大的改变需要去监控变量是否发生了比较大的改变。

网友评论