梯度下降策略

作者: python机器学习学习笔记 | 来源:发表于2019-01-21 11:50 被阅读1次

梯度下降原理

    直观解释比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

    从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。

梯度法思想的三要素:出发点、下降方向、下降步长。

引入:当我们得到一个目标函数后,如何进行求解?

直接求解?(并不一定可解,线性回归可以当做是一个特例)

常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是正确的(目标函数),然后让它朝着这个方向去做

如何优化:一口吃不成个胖子,我们要静悄悄的一步一步完成迭代

举个栗子:

    目标函数:

 目的:寻找山谷的最低点,也就是我们的目标函数终点(什么样的参数能使得目标函数达到极值点)

下山分几步走呢?(更新参数)

(1)找到当前最合适的方向

     (2)走那么一小步,求解当前位置梯度

(3)按照方向与步伐去更新我们的参数

梯度下降方法对比

梯度下降,目标函数:

批量梯度下降:

参数θ的每次更新,需要 计算全部数据集的样本的负梯度方向,取均值作为下一次梯度下降的方向。

    

特点:

    计算量大,参数更新慢,对内存的要求很高,不能以在线的形式训练模型,也就是运行时不能加入新样本

    理论上讲,可以得到全局最优解,参数更新比较稳定,收敛方向稳定

随机梯度下降:

每次只选择一个样本来求得偏导,进行参数θ的更新。

特点:

    运算速度很快,同时能够在线学习

    随机梯度下降参数更新的过程震荡很大,目标函数波动剧烈,参数更新方向有很大的波动

    其较大的波动可能收敛到比批量梯度下降更小的局部极小值,因为会从一个极小值跳出来

小批量梯度下降法:

该方法集合了批量梯度下降和随机梯度下降两者的优势,每次的参数更新利用一小批数据来完成。

特点:

    降低了更新参数的方差,使得收敛过程更加的稳定

    能够利用高度优化的矩阵运算,很高效的求得每小批数据的梯度

学习率对结果的影响

学习率(步长):对结果产生巨大的影响,一般要小一些。学习速率的选择,可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率,然后选择一个比它小一点点的学习率,通常能够找到最合适的学习速率来解决我们的问题。

批处理数量:32,64,128都可以,一般还要考虑内存和效率。

相关文章

  • 梯度下降策略

    梯度下降原理 直观解释:比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走...

  • (三)线性回归--梯度下降

    一、梯度下降 二、代码的实现 (一.梯度下降) 导包 构建数据 梯度下降 使用梯度下降,可视化 (二。梯度下降矩阵...

  • 神经网络优化2

    梯度下降 梯度下降法 批梯度下降法(Batch Gradient Descent,BGD)是最常用的梯度下降形式,...

  • 深入浅出--梯度下降法及其实现

    梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...

  • 机器学习-常用优化方法

    一阶方法:梯度下降、随机梯度下降、mini 随机梯度下降降法。 随机梯度下降不但速度上比原始梯度下降要快,局部最优...

  • ML-梯度下降代码-线性回归为例

    梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降

  • 2020-08-19--梯度下降法01

    梯度下降法简介 多元线性回归中的梯度下降法 随机梯度下降法 梯度下降法 的调试 1.梯度下降法简介 不是一个机器学...

  • 机器学习笔记(六)—— 梯度下降

    梯度下降 批量梯度下降(Batch Gradient Descent,BGD) 批量梯度下降法是最原始的形式,它是...

  • 更新权重的方式

    1、SGD 梯度下降(收敛最慢稳定) 梯度下降:+=- * d J() 批量梯度下降:将数据集切分为多批次, 分别...

  • 随机梯度下降法与批量梯度下降法的区别

    批量梯度下降法(batch gradient decent)就是我们平时所说的梯度下降,也就是梯度下降过程中,每次...

网友评论

    本文标题:梯度下降策略

    本文链接:https://www.haomeiwen.com/subject/ivxcjqtx.html