梯度下降公式.png 梯度下降过程.png 学习速率对梯度下降曲线的影响.png 适应性学习率.png 参数分开计算.png Adagrad.png 公式化简.png 方法有很多,adagrad只是其中一种.png 反差.png Best_Step.png台湾李宏毅教授的机器学习课程讲得非常详细,下面是他课程的PPT,不需要文字说明也能看的非常明白,适合时常拿出来复习。
上图表明,如果我的步长与该点的微分大小成正比,此步长最有可能是最佳步长。
注意:图中的最佳步长只有在只有单一参数的函数上才成立。
考虑多个参数.png2a是对 2ax+b的对x 的求导,上图右侧,只考虑W1的话,a点的梯度相对于只考虑W2的c点的梯度小,但是a点离最低点反而更远,所以,对于多参数的损失函数,最好的步长公式应该是损失函数的一次偏导/损失函数的二次偏导。
损失函数梯度下降.png
网友评论