梳理需要哪些数据
评估可用性
(获取难度、准确率、覆盖率)
特征清洗
- 清洗异常样本
- 采样,正负样本均衡
- 采样,样本权重
预处理
单个特征
- 归一化
- 离散化
- dummy coding
- 缺失值
- log
- 指数
- box-cox
多个特征
降维
- pca
- lda
特征选择
filter:自变量和目标变量之间的关联
- 相关系数
- 卡方检验
- 信息增益
wrapper:通过目标函数(AUC/MSE)来决定是否加入一个变量
- 通过迭代,产生迭代子集(完全搜索、启发式搜索、ga、sa)
embedded:学习器自身自动选择特征
- 正则化,l1-lasso
- 正则化,l2-ridge
- 决策树-信息增益、熵
- 深度学习
特征监控
- 监控重要特征
网友评论