数据预处理和特征衍生

作者: Liam_ml | 来源:发表于2019-01-04 16:39 被阅读1次

特征信息度的计算和意义

  • 变量的共线性,线性相关性
  • 信息冗余
  • 加剧后期验证,部署,监控的负担

变量挑选的依据

  • 带约束:LASSO
  • 随机森林
  • 基于AIC的逐步回归
  • 变量信息度:IV
image.png image.png image.png

单变量的分析和多变量的分析

  • 变量有比较好的预测能力(高IV)
  • 变量的分布
  • 变量的业务含义

单变量分析

  • 使用IV检验有效性
  • 连续变量bad rate 单调性,可放宽(U型)
  • 单一区间的占比不要太高

多变量分析

  • WOE 相关性矩阵

多变量共线性

image.png

相关文章

网友评论

    本文标题:数据预处理和特征衍生

    本文链接:https://www.haomeiwen.com/subject/nmkkrqtx.html