数据的准备工作一般会暂用整个项目80%的时间,原则上数据准备重点关注的是:
- 从不同渠道收集和整合建立评分卡所需的数据。
- 清理数据中所有意外或被认为是极端值的取值。
- 生成另外的候选因变量,期望他们可以帮助提高模型预测力。
下面将讨论对评分卡模型非常关键的数据准备。
降低基数
当分类变量的类别数大于12个,降低基数可以显著提高变量预测力,主要有三个策略:
- 相同含义变量合并。这种方法容易解释,但没有考虑默认的状态变量和被合并的类别之间的关联性,可能会导致预测力降低。
- 出现频率小的一类被合并为新的类别。
-
合并变量的类别使某些预测力指标最大化。唯一的要求是该指标要适合处理二元变量,即因变量,和一个名义变量。
一般评分卡偏爱第三种方法,一种常用的最优分组算法是基于决策树模型所用的方法,如图
降低基数决策树算法
这种算法首先假设所有类别都属于同一个组,然后,找出最优的二元分割法,这样被选中的分组方案中每一组的预测力指标都能够获得所有可能的备选分组的最大值。
连续变量的分段
连续变量必须要分段,以允许使用标准评分卡格式,一般有两种方法:等距分段和最优分段。
等距分段:连续变量的取值范围被分为预先确定数量的等宽区间。这种方法简单,容易处理,易于理解和接收。比如把年龄以10岁为间隔分段,比以2026.5,26.534.5更常见。
最优分段:相当于分类变量的最优分群,连续变量的每一段就相当于分类变量的一类,使用的方法也是一样的。决策树模型一般使用的是信息增益。
抽样和权重计算
信用评分卡模型是基于申请交易数据库的抽样,通常这种数据库包含大量数据记录,因此必须进行抽样。有三种方法:随机抽样,均衡抽样,分层抽样。
随机抽样:从总体中随机抽取两个不想交的样本,不能互相替代。
均衡抽样:设定的目标样本中目标变量具有特定的构成,如50%正常,50%违约。
分层变量:用一个或多个与业务申请相关的变量值将数据分层,例如学历、性别等。
网友评论