美文网首页
特征工程之特征标准化(Normalization)

特征工程之特征标准化(Normalization)

作者: 老羊_肖恩 | 来源:发表于2019-07-08 22:38 被阅读0次

    特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为算法和模型的输入。从本质上来说,特征工程是一个数据表示和展现的过程。在实际的工作中,特征工程旨在剔除原始数据中的冗余和杂质,进而提炼出更具表征力的特征。
    特征标准化(Normalization)是为了消除特征之间的量纲影响,使得不同的指标之间具有可比性。最典型的标准化就是特征的归一化处理,即将特征统一映射到[0,1]区间上。下面介绍几种常见的标准化方法:

    线性函数归一化(Min-Max Scaling)

    线性函数归一化是对原始特征进行线性变换,并将结果映射到[0,1]的范围上,从而实现对原始特征的等比例缩放。公式如下:
    X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}
    其中X为特征原始值,XminXmax分别为特征的最大值和最小值。该方法有一个不足,就是当有新数据引入时,XminXmax可能会变化,此时所有特征值需要重新定义。

    零均值标准化(Z-Score Normalization)

    零均值标准化是一种基于原始特征的均值(mean)和标准差(standard deviation)进行标准化的方法,它会将特征映射到均值为0,偏差为1的分布上。具体来说,假设特征的均值为u,标准差为\sigma,那么归一化的公式定义为:
    z=\frac{x-u}{\sigma}
    在使用梯度下降的方法求解最优化问题时,标准化/归一化可以加快梯度下降的求解速度,提升模型的收敛速度。

    相关文章

      网友评论

          本文标题:特征工程之特征标准化(Normalization)

          本文链接:https://www.haomeiwen.com/subject/okzahctx.html