


这里总结得很好,做特征的时候可以从这些角度去思考:
- 计数:带过多少次款,有多少消费记录,有多少。。。
- 求和:消费总金额
- 占比:贷款额度与年收入的占比
- 时间差:第一次开户距今的时长
- 波动率:过去三年内每一份工作的时间标准差
特征的分箱
- 将连续变量进行离散化
- 将多状态的变量合并成为少状态的变量
分箱的重要性
稳定性:避免特征无意义的波动对预测带来的波动
健壮性:避免极端值的影响
分箱的优势
- 可以将缺失值作为一个独立的箱带入模型当中
- 将多有的变量变换到相似的尺度
分箱的方法
有监督:
- Best-KS
- ChiMerge
无监督:
- 等频
- 等距
- 聚类





分箱的注意点
对于连续型变量
- 使用ChiMerge进行分箱
- 检查分箱后bad rate 的单调性 ,如果不满足,需要进行相邻两箱的合并
- 上述过程一定是收敛的
- 分箱必须覆盖训练样本之外所有可能的值
-当类别比较少的时候,原则上不需要分箱 - 当某几个类别bad rate 为0的时候,需要和最小的非0的bad rate 的箱进行合并
- 当该变量可以完全区分目标变量的时候,需要认真检查该变量的合理性
WOE 编码(weight of evidence)
优势
- 将特征的尺度规范到近似的范围
-
具体的业务含义
image.png
WOE编码的意义
- 符号与好坏样本的比例相关
- 要求回归模型的系数是负数
网友评论