美文网首页
Gradient Descent

Gradient Descent

作者: UlissesJr | 来源:发表于2018-07-22 11:43 被阅读0次

    台湾李宏毅教授的机器学习课程讲得非常详细,下面是他课程的PPT,不需要文字说明也能看的非常明白,适合时常拿出来复习。

    梯度下降公式.png 梯度下降过程.png 学习速率对梯度下降曲线的影响.png 适应性学习率.png 参数分开计算.png Adagrad.png 公式化简.png 方法有很多,adagrad只是其中一种.png 反差.png Best_Step.png

    上图表明,如果我的步长与该点的微分大小成正比,此步长最有可能是最佳步长。

    注意:图中的最佳步长只有在只有单一参数的函数上才成立。

    考虑多个参数.png

    2a是对 2ax+b的对x 的求导,上图右侧,只考虑W1的话,a点的梯度相对于只考虑W2的c点的梯度小,但是a点离最低点反而更远,所以,对于多参数的损失函数,最好的步长公式应该是损失函数的一次偏导/损失函数的二次偏导。

    损失函数梯度下降.png

    相关文章

      网友评论

          本文标题:Gradient Descent

          本文链接:https://www.haomeiwen.com/subject/krelmftx.html