特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为算法和模型的输入。从本质上来说,特征工程是一个数据表示和展现的过程。在实际的工作中,特征工程旨在剔除原始数据中的冗余和杂质,进而提炼出更具表征力的特征。
特征标准化(Normalization)是为了消除特征之间的量纲影响,使得不同的指标之间具有可比性。最典型的标准化就是特征的归一化处理,即将特征统一映射到[0,1]区间上。下面介绍几种常见的标准化方法:
线性函数归一化(Min-Max Scaling)
线性函数归一化是对原始特征进行线性变换,并将结果映射到[0,1]的范围上,从而实现对原始特征的等比例缩放。公式如下:
其中X为特征原始值,Xmin和Xmax分别为特征的最大值和最小值。该方法有一个不足,就是当有新数据引入时,Xmin和Xmax可能会变化,此时所有特征值需要重新定义。
零均值标准化(Z-Score Normalization)
零均值标准化是一种基于原始特征的均值(mean)和标准差(standard deviation)进行标准化的方法,它会将特征映射到均值为0,偏差为1的分布上。具体来说,假设特征的均值为,标准差为,那么归一化的公式定义为:
在使用梯度下降的方法求解最优化问题时,标准化/归一化可以加快梯度下降的求解速度,提升模型的收敛速度。
网友评论