特征工程
特征使用方案
要实现业务需求目标需要哪些数据?
- 基于业务理解,尽可能多的找出对因变量影响的所有自变量
可用性评估
- 获取难度
- 覆盖率
- 准确率
特征获取方案
如何获取这些特征?
- 用户行为数据
- 业务数据
- 第三方数据
如何存储?
- 本地磁盘
- 数据库
- 大数据平台
数据清洗&特征处理
特征清洗
-
清洗异常样本数据
-
采样
-
数据不均衡
- 权重
- 上采样
- 下采样
- SMOTE算法
-
样本权重
-
特征工程
-
单个特征
-
归一化、标准化、区间缩放法
-
离散化/二值化
-
哑编码/Dummy Coding
-
缺失值处理
-
数据变换
- log
- 指数
-
-
多个特征
-
增维
- 多项式扩展
- 核函数
- GBDT+LR
-
降维
- PCA
- LDA
-
特征选择
-
Filter
- 思路:自变量和因变量之间的关联
- 相关系数
- 卡方检验
- 信息增益、互信息
-
Wrapper
-
思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
-
迭代:产生特征子集,评价
-
完全搜索
-
启发式搜索
-
随机搜索
- GA
- SA
-
-
-
Embedded
-
思路:学习器自身自动选择特征
-
正则化:
- L1--Lasso
- L2--Ridge
-
决策树
- 熵、信息增益
-
-
-
-
衍生变量
- 对原始数据根据业务进行加工,生成的具有商业意义的变量
特征监控
特征有效性分析
- 分析特征的重要性、权重
特征监控
- 监控重要特征,防止特征质量下降,影响模型效果
网友评论