如果我们有一个问题,这个问题有许多的特征,如果你能确保不同的特征都处在相近的范围,我的意思是不同特征的取值处在相近的范围内,这样梯度下降算法就能更快的收敛,具体的说,如果你有一个具有两个特征的问题,是房子的面积大小,取值范围在0-2000平方英尺,
是卧室的数量,取值范围是1-5,如果你画出代价函数
的轮廓图。注意,
是关于
的函数,但是我们暂时不考虑
,但是如果
的取值范围远大于
的取值范围,那么画出来的轮廓图就会呈现如下所示的一种形式,会使椭圆更加的瘦长,会是一个又瘦又高的轮廓图,如果你使用这个代价函数来运行梯度下降的话,需要花很长的一段时间,并且可能来回波动,才能收敛到最小值,在这种情况下一种有效的方法就是特征缩放(特征缩放只是为了让梯度下降能够更快一些而已,并不能减少误差等)
常用的特征缩放公式如下(均值归一化),其中是均值,
是该特征的范围
或者是标准差。
![](https://img.haomeiwen.com/i15198150/a465649873b95de2.png)
网友评论