台湾李宏毅教授的机器学习课程讲得非常详细,下面是他课程的PPT,不需要文字说明也能看的非常明白,适合时常拿出来复习。










上图表明,如果我的步长与该点的微分大小成正比,此步长最有可能是最佳步长。
注意:图中的最佳步长只有在只有单一参数的函数上才成立。

2a是对 2ax+b的对x 的求导,上图右侧,只考虑W1的话,a点的梯度相对于只考虑W2的c点的梯度小,但是a点离最低点反而更远,所以,对于多参数的损失函数,最好的步长公式应该是损失函数的一次偏导/损失函数的二次偏导。

台湾李宏毅教授的机器学习课程讲得非常详细,下面是他课程的PPT,不需要文字说明也能看的非常明白,适合时常拿出来复习。
上图表明,如果我的步长与该点的微分大小成正比,此步长最有可能是最佳步长。
2a是对 2ax+b的对x 的求导,上图右侧,只考虑W1的话,a点的梯度相对于只考虑W2的c点的梯度小,但是a点离最低点反而更远,所以,对于多参数的损失函数,最好的步长公式应该是损失函数的一次偏导/损失函数的二次偏导。
本文标题:Gradient Descent
本文链接:https://www.haomeiwen.com/subject/krelmftx.html
网友评论