美文网首页
数据归一化

数据归一化

作者: qiaoqiao123 | 来源:发表于2019-04-10 23:33 被阅读0次

数据的标准化(normalization)和归一化

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。

归一化的目标

  • 把数变为(0,1)之间的小数
  • 把有量纲表达式变为无量纲表达式

归一化后有两个好处

  1. 提升模型的收敛速度
  2. 提升模型的精度
  3. 防止模型梯度爆炸
收敛方向和速度 提升模型的精度
  • 计算距离,不会受到一大一小数据差异的影响
  • 多指标评价体系中相对削弱数值水平较低指标的作用

从经验上说,归一化是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。


数据需要归一化的机器学习算法

需要归一化的模型

在各个维度进行不均匀伸缩后,最优解与原来不等价.
除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression.对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛(模型结果不精确)。

有些模型/优化方法的效果会强烈地依赖于特征是否归一化,如LogisticReg,SVM,NeuralNetwork,SGD等。

不需要归一化的模型

0/1取值的特征通常不需要归一化,归一化会破坏它的稀疏性。
有些模型则不受归一化影响,如DecisionTree。
ICA好像不需要归一化(因为独立成分如果归一化了就不独立了?)。
基于平方损失的最小二乘法OLS不需要归一化。

利用z-score进行标准化的话必须要求原始数据近似正太分布

相关文章

  • 数据归一化 Feature Scaling

    数据归一化 最值归一化 均值方差归一化

  • 数据归一化

    什么是数据归一化 ? 具体有哪些归一化 ? 为什么要归一化 ? 1. 什么是数据归一化 ? standardize...

  • 机器学习day1

    数据归一化 为了消除数据之间量纲的影响 线性函数归一化 是原始数据,是数据最大值,是数据最小值。 零均值归一化在学...

  • Normalization数据归一化/标准化

    Normalization(数据归一化)_大数据_Miracle.Zhao的博客-CSDN博客 数据标准化/归一化...

  • 神经网络的数据处理部分参考链接

    神经网络为什么要归一化 深度学习-----数据预处理 数据为什么要归一化 数据归一化后,最优解的寻优过程明显会变得...

  • 数据归一化方法

    【转载】数据归一化和两种常用的归一化方法 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不...

  • PCA主成分分析

    PCA用于剔除线性依赖数据,但是计算之前,需要处理有异类数据和归一化变量单位。归一化方法有很多,比如01归一化,l...

  • 用R进行microarray分析(2)

    归一化探针水平的数据并计算基因表达数据 函数 expresso 封装了计算基因表达数据过程中的归一化、汇总探针集、...

  • z-score归一化

    用途 对输入数据进行归一化处理 公式 其中σ为数据标准差(划重点,不是方差),μ为样本平均值。对数据进行归一化后,...

  • 2019-10-12

    深度学习第六天 对输入数据的归一化和去均值处理: 归一化:...

网友评论

      本文标题:数据归一化

      本文链接:https://www.haomeiwen.com/subject/acwoiqtx.html