梯度下降

作者: geekAppke | 来源:发表于2019-01-10 15:02 被阅读4次
    每次求梯度,寻找一个方向
    底部斜率接近为0
    
    a 不能太小,效率低步子太小;太大容易扯着
    
    梯度的方向,theta前进的方向;
    
    最优化一个目标函数
    

    并不是所有函数都有唯一的极值点

    • 多次运行,随机化初始点
    • 梯度下降法的初始点也是一个超参数

    目标:使\sum_{i=1}^{m}({y^{(i)}} - {\hat{y}^{(i)}})^{2}尽可能小

    • 线性回归法的损失函数具有唯一的最优解

    梯度下降法总结

    批量梯度下降法Batch Gradient Descent:稳定、方向一定是损失函数下降最快的方向!
    随机梯度下降法Stochastic Gradient Descent:计算快、每一次计算方向是不确定的;甚至是向反方向移动。
    小批量梯度下降法Mini-Batch Gradient Descent:综合2者优缺点,不那么极端

    • 不要看所有样本这么多;
    • 也不要看一个样本这么少
    • 看k个样本,k行

    去2种方法,不那么极端,将2者结合在一起
    多引入1个超参数

    梯度下降法

    • 不是一个机器学习算法
    • 一种基于搜索的最优化方法
    • 作用:最小化一个损失函数
    • 梯度上升法:最大化一个效用函数

    随机梯度下降法

    • 跳出局部最优解
    • 更容易找到损失函数整体的最优解
    • 更快的运行速度
    • 随机搜索随机森林蒙卡洛算法

    不确定世界中,不确定的问题,本身就可能没有一个固定的最优解 —— 随机有其优势

    相关文章

      网友评论

        本文标题:梯度下降

        本文链接:https://www.haomeiwen.com/subject/imharqtx.html