梯度下降法,权重更新公式
w := w - a* ∆e / ∆w
w代表权重参数, a代表学习率(一般为正数), ∆e / ∆w 代表 误差对权重参数的导数。
梯度下降法的反向传播过程还好理解, 最终求得 梯度 ∆e / ∆w , 但是将这个结果代入 上面权重更新公式,有点不太理解, 想了一路,终于想通了。
导数的定义就是, 结合 ∆y / ∆x ,就是x在正方向的增量无限接近于0的情况下, ∆y / ∆x 存在一个极限, 那么这个极限就是在x点处的导数。
知道上面这个定义后, 我们理解权重更新公式如下:
如果∆e / ∆w为正时,这个导数代表: w 在增大一点点, e则相应的增大, 而我们的目的是让e变小, 则我们希望 w往小处更新, 所以a* ∆e / ∆w前面的符号要为负。
如果∆e / ∆w为负时,这个导数代表: w 在增大一点点, e则相应的减小, 而我们的目的是让e变小, 则我们希望 w往大处更新, 所以a* ∆e / ∆w前面的符号要为负。
综合上面的两种情况下, 前面的符号都为负, 所以就得到了上面的权重更新公式。
网友评论