美文网首页
数据缩放与标准化方法简述

数据缩放与标准化方法简述

作者: 倪桦 | 来源:发表于2022-10-24 11:14 被阅读0次

特征值缩放简介

使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始测量值进行 特征缩放

数据缩放,在统计学中的意思是,通过一定的数学变换方式,将原始数据按照一定的比例进行转换,将数据放到一个小的特定区间内,比如0~1或者-1~1。目的是消除不同样本之间特性、数量级等特征属性的差异,转化为一个无量纲的相对数值,使得各个样本特征量数值都处于同一数量级上。【无量纲化】

1、特征间可比的缩放方法

  • Z-socre标准化 [Standard score] \ \ \ \frac {x - mean(X)}{sd(X)}\ \
    将测量值解释为当前尺度下的偏离均值的分布,该方法破坏了原有数据分布结构;

Z-Score不反映数据的实际意义,仅反映出不同特征对同一样本的贡献度(Contribution),Z-Score的结果只能用于比较特征间比较。

2、特征值缩放方法

2.1 当数据较为波动时候,需要将数据的方差进行稳定: 对数转换(Log Transform): \ \ \ \log_2 {(x+1)}

  • 不改变数据性质和相关关系的前提下压缩数据尺度,将宽范围压缩为更窄范围(加速运算);
  • 放大小数值反映的差异敏感度和减弱大数值反映的差异敏感度;
  • 有助于稳定数据波动(弱化异方差性,让数据的方差总体恒定,保证参数估计量(如均值)具有良好的统计性质,
    经典回归模型的前提:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。
    用途:使得同一特征的测量值在样本间具有可比性(比如让同一基因的表达量在不同细胞之间具有可比性,并且更加关注变化倍数的比较)。

在统计学中为什么要对变量取对数? - 知乎 (zhihu.com)

2.2 当数据波动稳定,且不存在极端的最大最小值,可用以下归一化方法来优化计算性能

  • 极差标准化(Min-Max Normalization) \ \ \ \frac {x - min(X)}{max(X) - min(X)}\ \
    将当前尺度的测量值映射到[0:1]区间上,不改变原有数据分布结构。
  • 最大绝对值法(MaxAbs) \ \ \ \frac {x}{max(|X|)}\ \
    将当前尺度的测量值映射到[-1:1]区间上,不改变原有数据分布结构。
  • log转换(Log Transform) \ \ \ \frac {\log_{10} (x+1)} {log_{10} (max(X))}
    该方法适用于将指数分布的数据缩放到[0:1]区间,不改变数据原始结构

相关文章

  • 数据缩放与标准化方法简述

    特征值缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某...

  • Spark -- 数据的特征缩放

    Spark -- 数据的特征缩放(Feature scaling) 特征缩放:有的叫数据归一化,有的叫数据标准化,...

  • 均一化和标准化

    数据的标准化(normalization)和归一化 数据的标准化(normalization) 将数据按比例缩放,...

  • python 特征工程 概述

    1 特征工程是什么? 2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归...

  • 机器学习中,有哪些特征选择的工程方法?

    目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与...

  • 梯度下降算法中的优化途径

    特征缩放: 特征缩放:特征缩放是用来标准化数据特征的范围。 特征缩放还可以使机器学习算法工作的更好。比如在K近邻算...

  • 2018-01-08

    "R语言学习笔记之数据标准化" 数据标准化/归一化 数据标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些...

  • 归一化(标准化)相关问题

    1. 数据标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比...

  • 数据预处理和特征工程

    1.导入数据 2.数据预处理: 2.1标准化: 把数据按比例缩放,使之落入一个小的空间里。常用的方法有: 1.z-...

  • 实现特征缩放/归一化和标准化

    什么是特征缩放 特征缩放是用来标准化数据特征的范围 机器学习为什么需要特征缩放 在处理多维特征问题的时候,需要保证...

网友评论

      本文标题:数据缩放与标准化方法简述

      本文链接:https://www.haomeiwen.com/subject/bgyizrtx.html