梯度下降算法中的BGD、SGD和MBGD的详细介绍

梯度下降算法中的BGD、SGD和MBGD的详细介绍

作者: dreamsfuture | 来源:发表于2018-05-01 09:10 被阅读0次

11 回归算法 - BGD、SGD、MBGD梯度下降
梯度下降算法中的BGD、SGD和MBGD的详细介绍
带动量的梯度下降
BGD,SGD,MBGD 梯度下降法
梯度下降的三种形式
深度学习优化器总结
梯度下降学习总结(BGD ,SGD, MBGD)
三种梯度下降算法的区别(BGD, SGD, MBGD)
DL中的各种优化器
常用的优化算法：SGD、Momentum、AdaGrad、RMS

本文为原创文章，转载请注明出处。

在讲述这BGD、SGD和MBGD几个算法之前，需要先说明一下梯度下降算法中的几个概念：

①epoch：

训练回合，也即完整的前向传播与反向传播的组合，两个过程相继走完。

epoch的次数 = 训练集个数 / batch_size

②iterations：

一次epoch过程中需要完成batch_size个数据样本的前向传播。

③batch_size：

训练集大小N小于2000个，则利用BGD算法更好；
训练集规模很大，则用MBGD算法更好，batch_size的取值通常为64,128,256,512，这与CPU/GPU的数据存储位数有关系。

1.批量梯度下降法（Batch Gradient Descent，BGD）

批量梯度下降，是每个epoch过程中把所有样本数据集都迭代了一遍，

整体表示数据集中m个数据样本的loss求均值，m表示训练集的样本容量，i表示当前样本
一般情况下，输入一个样本输出只会有一个，所有没有再次求累积的情况，但是如果要求中间隐藏层的损失函数则必然有累积，因为隐藏层有很多个。
如果把一个数据集中的所有样本都进行一次epoch，则BGD算法更新一次权重的公式：

上式，权重j在当前第i轮epoch更新中的值 = (第i-1轮epoch的权重j值) -
(学习率) × (第i-1轮更新的权重在输入的m个样本数据的Loss于权重j的梯度)。
其中，j表示第j个权重，i表示第i个epoch，n表示n个权重，m表示m个样本的数据集，k表示m个样本中的第k个样本

BGD算法的收敛图：

2. 随机梯度下降（Stochastic Gradient Descent, SGD）

随机梯度下降每次的权重更新只利用数据集中的一个样本来完成，也即一个epoch过程只有一次迭代和一个更新数据。
则Loss Function函数公式：

则利用Loss函数来更新权重参数的公式：

随机梯度下降算法在online场景下用的比较多
但是，SGD算法由于每次epoch过程只用一个数据样本，很容易受到单个数据的影响，如果单个样本是离群点或噪声，SGD算法也依然会得到更新，这使得SGD算法的每次更新迭代有可能不朝全局最优解方向走，也可能导致不收敛。

SGD算法的收敛图：

3.小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

小批量梯度下降法在BGD算法和SGD算法之间找了一个trade-off，即加快更新速度，并减少噪声的影响，从而减少训练时间和提高准确率。

特点：每次不选择所有的样本也不只选择一个样本，而是选择l（L的小写）个样本，也即bach_size。

则Loss Function函数公式：

则利用Loss函数来更新权重参数的公式：

参考文献：

[1] 训练一个神经网络1-- epoch,batch_size,iteration

相关文章

11 回归算法 - BGD、SGD、MBGD梯度下降
=== 名词解释 === BGD：批量 - 梯度下降算法SGD：随机 - 梯度下降算法MBGD：小批量...
梯度下降算法中的BGD、SGD和MBGD的详细介绍
本文为原创文章，转载请注明出处。在讲述这BGD、SGD和MBGD几个算法之前，需要先说明一下梯度下降算法中的几个...
带动量的梯度下降
上一期我们讲到了批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD),为了加快训练速度...
BGD,SGD,MBGD 梯度下降法
利用样本学习误差更新参数的3种策略 BGD（Batch gradient descent）批量梯度下降法：每次迭代...
梯度下降的三种形式
BGD、SGD、MBGD区别
深度学习优化器总结
一.优化器算法简述首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD，这三种形式的区别就是取决于我们...
梯度下降学习总结(BGD ,SGD, MBGD)
1. 从梯度下降开始这两天学习了机器学习课程的第二课，课程内容是围绕梯度下降展开的，下面就我的学习内容做一个总结...
三种梯度下降算法的区别(BGD, SGD, MBGD)
前言我们在训练网络的时候经常会设置 batch_size，这个 batch_size 究竟是做什么用的，一万张图...
DL中的各种优化器
学习笔记 BGD (Batch Gradient Decent)批量梯度下降法 SGD (Stochastic G...
常用的优化算法：SGD、Momentum、AdaGrad、RMS
1.SGD 梯度下降法分为三种： BGD(Batch Gradient Descent，批量梯度下降)一次迭代使用...

网友评论

本文标题：梯度下降算法中的BGD、SGD和MBGD的详细介绍

本文链接：https://www.haomeiwen.com/subject/ueptrftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|梯度下降算法中的BGD、SGD和MBGD的详细介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！