美文网首页
机器学习之特征工程 - 整理

机器学习之特征工程 - 整理

作者: 御风而行carrie | 来源:发表于2018-05-31 16:23 被阅读0次

以下内容整理自机器学习之特征工程

特征工程:

  • 定义:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程

特征工程包括三部分

  • 特征构建Feature construction

    • 特征构建指的是从原始数据中人工的构建新的特征
  • 特征提取Feature Extraction

    • 原则上来讲,特征提取应该在特征选择之前。特征提取的对象是原始数据(raw data),它的目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征

    • 常用方法有:

      • PCA(Principal Component Analysis,主成分分析)
      • ICA(Independent Componentt Analysis,独立成分分析)
      • LDA(Linear Discriminant Analysis)
      • 图像识别中,还有SIFT方法
  • 特征选择Feature Seelction

    • 从特征集合中挑选一组最具统计意义的特征子集,从而达到降维的效果

    • 基于过滤(filter):

      • 侧重单个特征跟目标变量的相关性

      • 优点:计算时间较高校,对于过拟合问题也具有较高的鲁棒性;

      • 缺点:倾向于选择冗余的特征,因为它们不考虑特征直接的相关性

    • 基于封装(wrapper):

      • 本质是一个分类器,用选取的特征子集对样本进行分类,分类精度作为衡量子集好坏的标准,经过比较选出最好的特征子集;常用的有逐步回归(Stepwise Regression),向前选择(Forward Selection)和向后选择(Backward Selection)

      • 优点:考虑了特征之间的相关性

      • 缺点: 当观测数据较少时容易过拟合;当特征数量较多时,计算时间又会增长;

    • 基于集成(embeded):学习去自身自主选择特征

    • 注意: 有时用Random Fores和Gradient Boosting做特征选择,本质都是基于决策树进行的。

  • 特征选择一般包括:

    • 产生过程Generation Procedure: 搜索特征子集的过程,负责为评价函数提供特征子集;

    • 评价函数: 评价伊特特征自己好坏程度的准则;

    • 停止准则: 与评价函数相关,一般是一个阈值,当评价函数达到这个阈值后就可以特征搜索;

    • 验证过程: 在验证数据集上验证选出来的特征子集的有效性。

  • 如果特征构建做的不好,那么它会直接影响特征提取,进而影响了特征选择,最终影响模型的性能

  • 特征值类型:离散型 / 数值型 / 时间空间特征等,默认会见特征当作数值型来处理,因此需要对离散特征进行One-Hot encoding处理(注:这一条内容不是整理自机器学习之特征工程)

相关文章

  • 机器学习之特征工程 - 整理

    以下内容整理自机器学习之特征工程 特征工程: 定义:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 机器学习之特征工程

    1.Scikit-learn与特征工程 1.1 数据来源与类型 大部分的数据都来数据库或者爬虫以及平时的记录等。 ...

  • 机器学习之特征工程

    一、哑变量 关于哑变量,这篇博文写的很好,相关概念可以参阅:《机器学习总结之——Dummy Coding(哑变量)...

  • 机器学习之特征工程

    一、缺失值处理 删除属性或者删除样本:如果大部分样本该属性都缺失买这个属性能提供的信息有限,可以选择放弃使用该维属...

  • 机器学习之特征工程-特征选择

    一个基本的数据挖掘场景如下: 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习...

  • 特征工程

    机器学习之特征工程 特征工程的作用 从数据中抽取出对预测结果有用的信息 从数据中构建出对结果有用的信息 更好的特征...

  • 机器学习之特征工程篇

    前言 在传统的机器学习当中,特征工程可以说是最为重要的部分之一。如果大家看看Kaggle比赛中获得前几名的团队的代...

  • 机器学习—特征工程

    详细pdf:链接:https://pan.baidu.com/s/1pUWhb_y7kK7_fU0Gjqfe0Q ...

  • 机器学习-特征工程

    outline 概念 预处理 特征选择 降维 概念 数据集由数据对象组成,一个数据对象代表一个实体属性(attri...

网友评论

      本文标题:机器学习之特征工程 - 整理

      本文链接:https://www.haomeiwen.com/subject/oynqsftx.html