特征值缩放简介
使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始测量值进行 特征缩放。
数据缩放,在统计学中的意思是,通过一定的数学变换方式,将原始数据按照一定的比例进行转换,将数据放到一个小的特定区间内,比如0~1或者-1~1。目的是消除不同样本之间特性、数量级等特征属性的差异,转化为一个无量纲的相对数值,使得各个样本特征量数值都处于同一数量级上。【无量纲化】
1、特征间可比的缩放方法
-
Z-socre标准化 [Standard score]
将测量值解释为当前尺度下的偏离均值的分布,该方法破坏了原有数据分布结构;
Z-Score不反映数据的实际意义,仅反映出不同特征对同一样本的贡献度(Contribution),Z-Score的结果只能用于比较特征间比较。
-
修正Z-score标准化[Modified z-score] is a scale factor
又名稳健Z分数(Robust zscore)是根据数据的中值绝对偏差 MAD 计算而来,相比标准 z 分数(标准差和均值都对极端值敏感)它受异常值的影响更小。对于来自正态总体的数据,需要将中值绝对偏差MAD乘以缩放因子来作为标准偏差的估计量,从而将稳健Z分数与标准Z分数放在统一尺度下,进而可以使用标准Z分数尺度下的分位数来进行决策。使用稳健Z分数常用来作为检测异常值的一种可靠方法,Iglewicz and Hoaglin 建议稳健Z分数的异常值cutoff为 ,不过更多的由用户根据数据自行定义。
Calculating robust z scores with median and MAD - Cross Validated (stackexchange.com)
What is a Modified Z-Score? (Definition & Example) (statology.org)
Modified z score - IBM Documentation
2、特征值缩放方法
2.1 当数据较为波动时候,需要将数据的方差进行稳定: 对数转换(Log Transform):
- 不改变数据性质和相关关系的前提下压缩数据尺度,将宽范围压缩为更窄范围(加速运算);
- 放大小数值反映的差异敏感度和减弱大数值反映的差异敏感度;
- 有助于稳定数据波动(弱化异方差性,让数据的方差总体恒定,保证参数估计量(如均值)具有良好的统计性质,
经典回归模型的前提:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。
用途:使得同一特征的测量值在样本间具有可比性(比如让同一基因的表达量在不同细胞之间具有可比性,并且更加关注变化倍数的比较)。
在统计学中为什么要对变量取对数? - 知乎 (zhihu.com)
2.2 当数据波动稳定,且不存在极端的最大最小值,可用以下归一化方法来优化计算性能
- 极差标准化(Min-Max Normalization)
将当前尺度的测量值映射到区间上,不改变原有数据分布结构。- 最大绝对值法(MaxAbs)
将当前尺度的测量值映射到区间上,不改变原有数据分布结构。- log转换(Log Transform)
该方法适用于将指数分布的数据缩放到区间,不改变数据原始结构
网友评论