特征工程在机器学习和模型中经常用到, 之前也没有详细的整理过,今天大致看了下,给记录下主要的方法。
本次仅记录特征生成的一些方法, 不包含特征筛选。
一、从数据来看:
1. 单个特征时可用的方法:
填充,离群点, 分箱, log变换, 0-1编码, 整合, 分列, 标准化, 提取日期信息;
2. 多个特征,可以做交叉验证,整合生成新的,用逻辑运算,取交,并,补等;也可以多个特征算数运行,+ - * / 等;
3. 增加地理位置信息, 区域经济数据,位置数据,人均GDP, 人口等数据;
4. 也可以试python 中的自动特征生成函数,如:polynomial features
二、从业务来看
1. 结合业务情况,从产品,运营角度回看数据,将相关广告, 渠道,活动等信息加入。
网友评论