美文网首页
数据缩放与标准化方法简述

数据缩放与标准化方法简述

作者: 倪桦 | 来源:发表于2022-10-24 11:14 被阅读0次

    特征值缩放简介

    使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始测量值进行 特征缩放

    数据缩放,在统计学中的意思是,通过一定的数学变换方式,将原始数据按照一定的比例进行转换,将数据放到一个小的特定区间内,比如0~1或者-1~1。目的是消除不同样本之间特性、数量级等特征属性的差异,转化为一个无量纲的相对数值,使得各个样本特征量数值都处于同一数量级上。【无量纲化】

    1、特征间可比的缩放方法

    • Z-socre标准化 [Standard score] \ \ \ \frac {x - mean(X)}{sd(X)}\ \
      将测量值解释为当前尺度下的偏离均值的分布,该方法破坏了原有数据分布结构;

    Z-Score不反映数据的实际意义,仅反映出不同特征对同一样本的贡献度(Contribution),Z-Score的结果只能用于比较特征间比较。

    2、特征值缩放方法

    2.1 当数据较为波动时候,需要将数据的方差进行稳定: 对数转换(Log Transform): \ \ \ \log_2 {(x+1)}

    • 不改变数据性质和相关关系的前提下压缩数据尺度,将宽范围压缩为更窄范围(加速运算);
    • 放大小数值反映的差异敏感度和减弱大数值反映的差异敏感度;
    • 有助于稳定数据波动(弱化异方差性,让数据的方差总体恒定,保证参数估计量(如均值)具有良好的统计性质,
      经典回归模型的前提:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。
      用途:使得同一特征的测量值在样本间具有可比性(比如让同一基因的表达量在不同细胞之间具有可比性,并且更加关注变化倍数的比较)。

    在统计学中为什么要对变量取对数? - 知乎 (zhihu.com)

    2.2 当数据波动稳定,且不存在极端的最大最小值,可用以下归一化方法来优化计算性能

    • 极差标准化(Min-Max Normalization) \ \ \ \frac {x - min(X)}{max(X) - min(X)}\ \
      将当前尺度的测量值映射到[0:1]区间上,不改变原有数据分布结构。
    • 最大绝对值法(MaxAbs) \ \ \ \frac {x}{max(|X|)}\ \
      将当前尺度的测量值映射到[-1:1]区间上,不改变原有数据分布结构。
    • log转换(Log Transform) \ \ \ \frac {\log_{10} (x+1)} {log_{10} (max(X))}
      该方法适用于将指数分布的数据缩放到[0:1]区间,不改变数据原始结构

    相关文章

      网友评论

          本文标题:数据缩放与标准化方法简述

          本文链接:https://www.haomeiwen.com/subject/bgyizrtx.html