特征信息度的计算和意义
- 变量的共线性,线性相关性
- 信息冗余
- 加剧后期验证,部署,监控的负担
变量挑选的依据
- 带约束:LASSO
- 随机森林
- 基于AIC的逐步回归
- 变量信息度:IV
![](https://img.haomeiwen.com/i2562595/5f3e5f52f57bdae0.png)
![](https://img.haomeiwen.com/i2562595/660013974d7a4238.png)
![](https://img.haomeiwen.com/i2562595/4e8e397e160c4764.png)
单变量的分析和多变量的分析
- 变量有比较好的预测能力(高IV)
- 变量的分布
- 变量的业务含义
单变量分析
- 使用IV检验有效性
- 连续变量bad rate 单调性,可放宽(U型)
- 单一区间的占比不要太高
多变量分析
- WOE 相关性矩阵
多变量共线性
![](https://img.haomeiwen.com/i2562595/f9b75ae03bc41652.png)
多变量共线性
本文标题:数据预处理和特征衍生
本文链接:https://www.haomeiwen.com/subject/nmkkrqtx.html
网友评论