梯度下降策略

作者: python机器学习学习笔记 | 来源:发表于2019-01-21 11:50 被阅读1次

    梯度下降原理

        直观解释比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

        从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。

    梯度法思想的三要素:出发点、下降方向、下降步长。

    引入:当我们得到一个目标函数后,如何进行求解?

    直接求解?(并不一定可解,线性回归可以当做是一个特例)

    常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是正确的(目标函数),然后让它朝着这个方向去做

    如何优化:一口吃不成个胖子,我们要静悄悄的一步一步完成迭代

    举个栗子:

        目标函数:

     目的:寻找山谷的最低点,也就是我们的目标函数终点(什么样的参数能使得目标函数达到极值点)

    下山分几步走呢?(更新参数)

    (1)找到当前最合适的方向

         (2)走那么一小步,求解当前位置梯度

    (3)按照方向与步伐去更新我们的参数

    梯度下降方法对比

    梯度下降,目标函数:

    批量梯度下降:

    参数θ的每次更新,需要 计算全部数据集的样本的负梯度方向,取均值作为下一次梯度下降的方向。

        

    特点:

        计算量大,参数更新慢,对内存的要求很高,不能以在线的形式训练模型,也就是运行时不能加入新样本

        理论上讲,可以得到全局最优解,参数更新比较稳定,收敛方向稳定

    随机梯度下降:

    每次只选择一个样本来求得偏导,进行参数θ的更新。

    特点:

        运算速度很快,同时能够在线学习

        随机梯度下降参数更新的过程震荡很大,目标函数波动剧烈,参数更新方向有很大的波动

        其较大的波动可能收敛到比批量梯度下降更小的局部极小值,因为会从一个极小值跳出来

    小批量梯度下降法:

    该方法集合了批量梯度下降和随机梯度下降两者的优势,每次的参数更新利用一小批数据来完成。

    特点:

        降低了更新参数的方差,使得收敛过程更加的稳定

        能够利用高度优化的矩阵运算,很高效的求得每小批数据的梯度

    学习率对结果的影响

    学习率(步长):对结果产生巨大的影响,一般要小一些。学习速率的选择,可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率,然后选择一个比它小一点点的学习率,通常能够找到最合适的学习速率来解决我们的问题。

    批处理数量:32,64,128都可以,一般还要考虑内存和效率。

    相关文章

      网友评论

        本文标题:梯度下降策略

        本文链接:https://www.haomeiwen.com/subject/ivxcjqtx.html