美文网首页
浅谈—机器学习中特征工程

浅谈—机器学习中特征工程

作者: 你怎么还在吃 | 来源:发表于2020-07-12 01:39 被阅读0次

    首先:

    机器学习过程分为以下几部分:
    •1. 业务背景

    •2.选择数据(Select Data): 整合数据,将数据规范化成一个数据集,收集起来.

    •3.数据预处理(Preprocess Data): 数据格式化,数据清理,采样等.

    •4.数据转换(Transform Data): 这个阶段做特征工程.

    •5.数据建模(Model Data): 建立模型,评估模型并逐步优化.

    其次:

    1. 特征工程是一个迭代过程,我们需要不断的设计特征、选择特征、建立模型、评估模型,然后才能得到最终的模型。
      2.其定义——就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。
      3.目的——获取更好的训练数据。
      4.重要性——
      (1)特征越好,灵活性越强
      好特征允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。
      (2)特征越好,构建的模型越简单
      有好的特征,不需要花太多的时间寻找最优参数,大大降低模型的复杂度,模型趋于简单。
      (3)特征越好,模型的性能越出色
      最终目的就是提升模型的性能。

    最后:

    分为三个子问题:
    A.特征选择Feature Selection——从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果。

    特征选择可能会降低模型的预测能力,因为被剔除的特征中可能包含了有效的信息,抛弃这部分信息一定程度上会降低模型的性能。但这也是计算复杂度和模型性能之间的取舍:

    如果保留尽可能多的特征,模型的性能会提升,但同时模型就变复杂,计算复杂度也同样提升;
    如果剔除尽可能多的特征,模型的性能会有所下降,但模型就变简单,也就降低计算复杂度。

    常见的特征选择分为三类方法:
    •1.过滤式(filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题
    1)方差选择法,相关系数法,卡方检验,互信息法
    •2.包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价原则。
    2)递归特征消除法
    •3.嵌入式(embedding):将特征选择与学习器训练过程融为一体,两者在同一个优化过程中完成的
    3.1)利用正则化,如L_1, L_2 范数,主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法;
    3.2)使用决策树思想,包括决策树、随机森林、Gradient Boosting 等

    B.特征提取Feature Extraction
    •对象是原始数据(raw data)
    •目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义特征。
    •通过变换特征取值来减少原始数据中某个特征的取值个数

    •常用的方法有:
    1)PCA (Principal component analysis,主成分分析):找到数据中的主成分,并利用这些主成分来表征原始数据,从而达到降维的目的。通过坐标轴转换,寻找数据分布的最优子空间,只是将数据映射到方差比较大的方向上而已
    2)LDA (Linear Discriminant Analysis,线性判别分析):一种有监督学习算法,相比较 PCA,它考虑到数据的类别信息

    C.特征提取Feature Construction
    •从原始数据中人工构建新特征
    •需要花大量的时间去研究真实的数据样本,思考问题的潜在形式和数据结构,同时能够更好地应用到预测模型中。

    只是初步分析,后续还会更新。。。。

    相关文章

      网友评论

          本文标题:浅谈—机器学习中特征工程

          本文链接:https://www.haomeiwen.com/subject/zlowcktx.html