之前一直搞不清楚这两者有什么区别,今天借鉴知乎
上面有几位大佬的回答,在此记录一下
归一化,标准化是四种特征缩放feature scaling的中文翻译
-
rescaling, min-max normalisation
Screen Shot 2020-04-15 at 12.50.37.png
-
mean normalisation
Screen Shot 2020-04-15 at 12.50.42.png
-
standardisation
Screen Shot 2020-04-15 at 12.50.51.png
-
scale to unit length
Screen Shot 2020-04-15 at 12.51.19.png
一般称第一种为归一化,第三种为标准化,两者都是将原始数据变化到某个区间内,归一化将原数据变化到【0,1】的范围内,标准化则是将数据变换为均值为0,标准差为1的分布
归一化,标准化的作用
- 去除数据量纲的影响,因为有的时候数据的数值变化范围比较大的时候,可能也会导致他在模型评估的时候占的比重也比较大
- 另外,在一些需要距离计算的模型当中,PCA,KNN,KMEANS之类的,如果不同维度的数据量纲不同,会导致结果过度依赖与那些量纲较大的特征
- 在梯度下降求解的时候,归一化或者标准化处理过的数据,模型的收敛速度会更快
什么时候用归一化,什么时候用标准化
引用
当涉及到距离运算的时候,标准化表现更好
当不涉及距离,协方差计算的时候,归一化表现更好
网友评论