1. 变量分析的步骤
- 首先从已有的数据中挑选或组合可能影响风险的变量,组成变量群(长清单)
- 检查变量之间的共线性,若变量之间存在高度相关性,之后依据预测能力及稳定性择一保留
- 进行单因子分析,检查各变量的预测强度(以变量-年收入为例)
- 分组:按照年收入高低分组
- 分组原则:
- 组间差异大,组内差异小
- 分组占率不宜低于5%
- 各组必须同时拥有好坏客户
2. WOE (weight of evidence):迹象权数
- 计算公式: ln(正常件占比/违约件占比)
- 违约件占比 > 正常件占比 ,WOE为负数
- 绝对值越高,表明该组别好坏客户的区隔程度越高
- 各组之间的WOE值差距应尽可能拉开并呈现由低至高的合理趋势
3. IV (information value):信息值
-
IV计算公式
-
n 表示数据分析的组数
-
信息值可用来表示变量的预测能力
1.提高信息值的方法: 调整合并WOE相近的组别,最后得到的分组结果称为粗分类
2. 待所有长清单的变量信息值计算完成后,即可从中挑选变量
- 优先排除高度相关、趋势异常、解释不易及容易偏移者
- 经过筛选后的变量集合称为短清单,这个清单即模型的候选变量
- 建立模型时可以利用顺向进入法,反向排除法及逐步回归法等方法选出效果最佳的变量组合
网友评论