浅谈—机器学习中特征工程

作者: 你怎么还在吃 | 来源:发表于2020-07-12 01:39 被阅读0次

浅谈—机器学习中特征工程
【特征工程】特征工程技术与方法
【特征工程】特征工程技术与方法
想搞机器学习，不会特征工程？Are you kidding me
美团机器学习实践第二章-特征工程总结
特征工程
特征预处理
关于推荐系统中的特征工程
机器学习中的特征工程
特征工程-1-数据预处理

首先：

机器学习过程分为以下几部分：
•1. 业务背景

•2.选择数据(Select Data): 整合数据，将数据规范化成一个数据集，收集起来.

•3.数据预处理（Preprocess Data）: 数据格式化，数据清理，采样等.

•4.数据转换（Transform Data）: 这个阶段做特征工程.

•5.数据建模（Model Data）: 建立模型，评估模型并逐步优化.

其次：

特征工程是一个迭代过程，我们需要不断的设计特征、选择特征、建立模型、评估模型，然后才能得到最终的模型。
2.其定义——就是一个把原始数据转变成特征的过程，这些特征可以很好的描述这些数据，并且利用它们建立的模型在未知数据上的表现性能可以达到最优（或者接近最佳性能）。
3.目的——获取更好的训练数据。
4.重要性——
（1）特征越好，灵活性越强
好特征允许你选择不复杂的模型，同时运行速度也更快，也更容易理解和维护。
（2）特征越好，构建的模型越简单
有好的特征，不需要花太多的时间寻找最优参数，大大降低模型的复杂度，模型趋于简单。
（3）特征越好，模型的性能越出色
最终目的就是提升模型的性能。

最后：

分为三个子问题：
A.特征选择Feature Selection——从特征集合中挑选一组最具统计意义的特征子集，从而达到降维的效果。

特征选择可能会降低模型的预测能力，因为被剔除的特征中可能包含了有效的信息，抛弃这部分信息一定程度上会降低模型的性能。但这也是计算复杂度和模型性能之间的取舍：

如果保留尽可能多的特征，模型的性能会提升，但同时模型就变复杂，计算复杂度也同样提升；
如果剔除尽可能多的特征，模型的性能会有所下降，但模型就变简单，也就降低计算复杂度。

常见的特征选择分为三类方法：
•1.过滤式(filter)：先对数据集进行特征选择，其过程与后续学习器无关，即设计一些统计量来过滤特征，并不考虑后续学习器问题
1)方差选择法，相关系数法，卡方检验，互信息法
•2.包裹式(wrapper)：直接把最终将要使用的学习器的性能作为特征子集的评价原则。
2)递归特征消除法
•3.嵌入式(embedding)：将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成的
3.1)利用正则化，如L_1, L_2 范数，主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法；
3.2)使用决策树思想，包括决策树、随机森林、Gradient Boosting 等

B.特征提取Feature Extraction
•对象是原始数据（raw data）
•目的是自动地构建新的特征，将原始特征转换为一组具有明显物理意义（Gabor、几何特征[角点、不变量]、纹理[LBP HOG]）或者统计意义特征。
•通过变换特征取值来减少原始数据中某个特征的取值个数

•常用的方法有：
1)PCA (Principal component analysis，主成分分析)：找到数据中的主成分，并利用这些主成分来表征原始数据，从而达到降维的目的。通过坐标轴转换，寻找数据分布的最优子空间，只是将数据映射到方差比较大的方向上而已
2)LDA （Linear Discriminant Analysis，线性判别分析）：一种有监督学习算法，相比较 PCA，它考虑到数据的类别信息

C.特征提取Feature Construction
•从原始数据中人工构建新特征
•需要花大量的时间去研究真实的数据样本，思考问题的潜在形式和数据结构，同时能够更好地应用到预测模型中。

只是初步分析，后续还会更新。。。。

网友评论

本文标题：浅谈—机器学习中特征工程

本文链接：https://www.haomeiwen.com/subject/zlowcktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

浅谈—机器学习中特征工程

首先：

其次：

最后：

只是初步分析，后续还会更新。。。。

相关文章