梯度下降

作者: Jocelyn_Long | 来源:发表于2018-04-16 20:11 被阅读14次

    首先假设一些变量
    m 为训练数据样本,x为输入变量值也就特性,y为输出变量,也就是目标变量。(x,y)为一组数据。
    反正最后公式就是这样... 怎么求导出来的我听了一节课也不明白... 可能还是要先补数学..
    总之最后的代数表达式为:


    tidudaishu.png

    还有一种向量的更简单的表达式


    tiduxiangliang.png
    梯度下降概念

    就是在初始化数据点求偏微分然后得出梯度下降最大点。
    所以这里会涉及一个初始值选择和步长。

    • 步长设置过小则收敛速度慢,过大则可能错过最优解。
    • 初始值不同也有可能得到的是局部最优解而不是全部最优解。

    梯度下降的算法调优也主要是步长与初始值设置了。还有一个就是输入特征归一化,这样更方便进行计算。

    梯度下降有三种
    • 批梯度下降算法
      批就是针对全部样本的意思,数据量大的时候可能导致训练速度慢。

    • 随机梯度下降算法
      即在样本中随机选取J组样本。训练快,但是在数据样本大的时候,局部最优解浮动很大 不能快速收敛。

    • 小批量梯度下降算法
      结合了上述两种算法的优点。

    参考资料

    梯度下降小结
    哈佛机器学习公开课
    梯度下降在TensorFlow中的应用

    相关文章

      网友评论

        本文标题:梯度下降

        本文链接:https://www.haomeiwen.com/subject/nztykftx.html