首先:
机器学习过程分为以下几部分:
•1. 业务背景
•2.选择数据(Select Data): 整合数据,将数据规范化成一个数据集,收集起来.
•3.数据预处理(Preprocess Data): 数据格式化,数据清理,采样等.
•4.数据转换(Transform Data): 这个阶段做特征工程.
•5.数据建模(Model Data): 建立模型,评估模型并逐步优化.
其次:
- 特征工程是一个迭代过程,我们需要不断的设计特征、选择特征、建立模型、评估模型,然后才能得到最终的模型。
2.其定义——就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。
3.目的——获取更好的训练数据。
4.重要性——
(1)特征越好,灵活性越强
好特征允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。
(2)特征越好,构建的模型越简单
有好的特征,不需要花太多的时间寻找最优参数,大大降低模型的复杂度,模型趋于简单。
(3)特征越好,模型的性能越出色
最终目的就是提升模型的性能。
最后:
分为三个子问题:
A.特征选择Feature Selection——从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果。
特征选择可能会降低模型的预测能力,因为被剔除的特征中可能包含了有效的信息,抛弃这部分信息一定程度上会降低模型的性能。但这也是计算复杂度和模型性能之间的取舍:
如果保留尽可能多的特征,模型的性能会提升,但同时模型就变复杂,计算复杂度也同样提升;
如果剔除尽可能多的特征,模型的性能会有所下降,但模型就变简单,也就降低计算复杂度。
常见的特征选择分为三类方法:
•1.过滤式(filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题
1)方差选择法,相关系数法,卡方检验,互信息法
•2.包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价原则。
2)递归特征消除法
•3.嵌入式(embedding):将特征选择与学习器训练过程融为一体,两者在同一个优化过程中完成的
3.1)利用正则化,如L_1, L_2 范数,主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法;
3.2)使用决策树思想,包括决策树、随机森林、Gradient Boosting 等
B.特征提取Feature Extraction
•对象是原始数据(raw data)
•目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义特征。
•通过变换特征取值来减少原始数据中某个特征的取值个数
•常用的方法有:
1)PCA (Principal component analysis,主成分分析):找到数据中的主成分,并利用这些主成分来表征原始数据,从而达到降维的目的。通过坐标轴转换,寻找数据分布的最优子空间,只是将数据映射到方差比较大的方向上而已
2)LDA (Linear Discriminant Analysis,线性判别分析):一种有监督学习算法,相比较 PCA,它考虑到数据的类别信息
C.特征提取Feature Construction
•从原始数据中人工构建新特征
•需要花大量的时间去研究真实的数据样本,思考问题的潜在形式和数据结构,同时能够更好地应用到预测模型中。
网友评论