重复直到收敛:
参数更新 研究导数部分带来的影响当位于最小值的右侧,位于的切线斜率(即导数部分)大于0,使得等式左边新减小,J减小,接近最小值J;
当位于最小值的左侧,位于的切线斜率(即导数部分)小于0,使得等式左边新增大,J减少,接近最小值J;
综上所述,不管的大小为正为负,J都会收敛至他的最小值。
另外,我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。 没有收敛或花费太多时间来获得最小值都意味着步长α是错误的。
当为局部最小值的时候,切线斜率为0,等式左边的新保持不变。
导数最小值收敛的直观表现是接近于0。
研究α参数带来的影响当α过小时,梯度下降过慢,每一次的变化幅度太小。
当α过大时,梯度下降可能会越过最小值(产生偏离)。这会导致没有收敛或者偏离。
α固定下的收敛梯度下降会收敛到一个局部最小值,即使是学习效率α固定的情况下。
当J接近最小值时,梯度下降会自动采用更小的步伐,下降的幅度自动变小,因为导数(斜率)正在慢慢变小。所以不需要随着时间增大α。
网友评论