美文网首页
​特征工程:预处理

​特征工程:预处理

作者: 老姚记事本 | 来源:发表于2020-03-15 20:08 被阅读0次

数据特征决定了机器学习的上限

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征工程包含:Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)

数据预处理包括:数据清洗、特征预处理


数值型特征无量纲化

无量纲化使不同规格的数据转换到同一规格(绝对 to 相对),常见的无量纲化方法有标准化和归一化

无纲化原因:

  • 某些算法要求样本具有零均值和单位方差;
  • 需要消除样本不同属性具有不同量级时的影响;

1. 标准化

标准化就是统计学正态分布的标准化,前提是特征值服从正态分布。

  • 优点:简单,容易计算
  • 缺点:
  1. 总体平均值与方差一般无法得知,需要用样本估计
  2. 一般要求数据符合正态分布
  3. 在存在异常值时无法保证平衡的特征尺度
  4. z值与原数据无直接关系

2. 归一化

把所有的数据都映射到同一个尺度(量纲)上。

  • MinMax归一化


  • MaxAbs归一化


3.正态分布化

留给未来todo

数值型特征特征分箱(数据离散化)

连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。例如将人群年龄分为40岁以上和以下。

参考资料

​特征工程系列:特征预处理(上)

相关文章

  • 0713机器学习 算法

    难点:数据预处理与特征工程

  • 特征工程-特征预处理

    特征工程 -Data PreProcessing(数据预处理)-Feature Extraction(特征提取)-...

  • 高级特征工程和预处理的四个技巧

    可以说,开发机器学习模型的两个最重要的步骤是特征工程和预处理。特征工程包括特征的创建,而预处理涉及清理数据。 折磨...

  • 特征工程:特征预处理

    虽然现在深度学习非常盛行,它可以自动进行特征工程,但是实际工作中往往没有那么多数据量支撑你使用深度学习模型,因此对...

  • 【转】使用sklearn做单机特征工程

    作者:jasonfreak,原文地址:使用sklearn做单机特征工程 目录 特征工程是什么? 数据预处理2.1 ...

  • ​特征工程:预处理

    数据和特征决定了机器学习的上限 特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。...

  • 特征工程3——特征预处理

    转载:https://www.cnblogs.com/pinard/p/9032759.html 在前面我们分别讨...

  • 机器学习 —「特征工程」方法论

    什么是特征工程? 数据预处理 特征选择 降维 1. 什么是特征工程? 有这么一句话在业界广泛流传,数据和特征决定了...

  • tflite模型推理

    模型输入的预处理 这个预处理其实就是模型训练阶段的预处理流程,和它对齐就好,特征工程常见的一些预处理包括了: 图像...

  • 特征工程

    数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。特征工程对原始数据进行特征提取、特征预处理、特征选择等...

网友评论

      本文标题:​特征工程:预处理

      本文链接:https://www.haomeiwen.com/subject/nbomehtx.html