以下内容整理自机器学习之特征工程
特征工程:
- 定义:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程
特征工程包括三部分
-
特征构建Feature construction
- 特征构建指的是从原始数据中人工的构建新的特征
-
特征提取Feature Extraction
-
原则上来讲,特征提取应该在特征选择之前。特征提取的对象是原始数据(raw data),它的目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。
-
常用方法有:
- PCA(Principal Component Analysis,主成分分析)
- ICA(Independent Componentt Analysis,独立成分分析)
- LDA(Linear Discriminant Analysis)
- 图像识别中,还有SIFT方法
-
-
特征选择Feature Seelction
-
从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果
-
基于过滤(filter):
-
侧重单个特征跟目标变量的相关性
-
优点:计算时间较高校,对于过拟合问题也具有较高的鲁棒性;
-
缺点:倾向于选择冗余的特征,因为它们不考虑特征直接的相关性
-
-
基于封装(wrapper):
-
本质是一个分类器,用选取的特征子集对样本进行分类,分类精度作为衡量子集好坏的标准,经过比较选出最好的特征子集;常用的有逐步回归(Stepwise Regression),向前选择(Forward Selection)和向后选择(Backward Selection)
-
优点:考虑了特征之间的相关性;
-
缺点: 当观测数据较少时容易过拟合;当特征数量较多时,计算时间又会增长;
-
-
基于集成(embeded):学习去自身自主选择特征
-
注意: 有时用Random Fores和Gradient Boosting做特征选择,本质都是基于决策树进行的。
-
-
特征选择一般包括:
-
产生过程Generation Procedure: 搜索特征子集的过程,负责为评价函数提供特征子集;
-
评价函数: 评价伊特特征自己好坏程度的准则;
-
停止准则: 与评价函数相关,一般是一个阈值,当评价函数达到这个阈值后就可以特征搜索;
-
验证过程: 在验证数据集上验证选出来的特征子集的有效性。
-
-
如果特征构建做的不好,那么它会直接影响特征提取,进而影响了特征选择,最终影响模型的性能
-
特征值类型:离散型 / 数值型 / 时间空间特征等,默认会见特征当作数值型来处理,因此需要对离散特征进行One-Hot encoding处理(注:这一条内容不是整理自机器学习之特征工程)
网友评论