1.2梯度下降算法

作者: Yuanshuo | 来源:发表于2019-08-05 10:08 被阅读0次

深入浅出--梯度下降法及其实现
浅谈神经网络中的梯度爆炸问题
1.2梯度下降算法
多层神经网络，从零开始——（九）、优化函数
总结那些常用的优化方法
11 回归算法 - BGD、SGD、MBGD梯度下降
笔记6-Deep learning and backpropag
梯度下降算法
机器学习——梯度下降、梯度下降的线性回归算法
一维梯度下降算法

The core values of Chinese socialism

梯度下降算法

梯度下降算法可将代价函数 $J$ 最小化。

image

思路构想

在梯度下降算法在不停地一点点改变 $θ_{0}$ 和 $θ_{1}$ ，试图通过这种改变使得 $J(θ_{0}, θ_{1})$ 变小，直到找到 $J$ 的最小值，或局部最小值。

原理

局部最优解

定义

同步反复迭代直到收敛。 $α$ 是一个数字，被称为学习速率控制以多大的幅度更新 $θ_{j}$ 。

同步更新

深入研究梯度下降算法

探究导数的意义。控制斜率。

image

单 $θ_{1}$ 变量的 $J(θ_{1})$ 图像。

image

$θ_{1} := θ_{1} - α(positive num)$ ， $θ_{1}$ 减去一个正数，相当于使 $θ_{1}$ 变小， $θ_{1}$ 向左移。

image

$θ_{1} := θ_{1} - α(negative num)$ ， $θ_{1}$ 减去一个负数，相当于使 $θ_{1}$ 变大， $θ_{1}$ 向右移。

线性回归中的梯度下降

image

为了达到梯度下降，需要的关键是这个微分项：

$\frac{∂}{∂θ_{j}}J(θ_{0},θ_{1})$

带入公式可以得出：

$\begin{align*} \frac{∂}{∂θ_{j}}J(θ_{0},θ_{1}) &= \frac{∂}{∂θ_{j}} \frac{1}{2m} \sum_{i=1}^{m} (h_{θ}(x^{(i)}) - y^{(i)})^{2}\\ &= \frac{∂}{∂θ_{j}} \frac{1}{2m} \sum_{i=1}^{m} (θ_{0} + θ_{1}(x^{(i)}) - y^{(i)})^{2}\\ \end{align*}$

需要弄清两个偏导数项是什么：

$j = 0 时: \frac{∂}{∂θ_{0}}J(θ_{0},θ_{1}) = ? \\ j = 1 时: \frac{∂}{∂θ_{1}}J(θ_{0},θ_{1}) = ?$

得到：

$\begin{align*} j = 0 时: \frac{∂}{∂θ_{0}}J(θ_{0},θ_{1}) &= \frac{∂}{∂θ_{0}} \frac{1}{2m} \sum_{i=1}^{m} (h_{θ}(x^{(i)}) - y^{(i)})^{2}\\ &= \frac{1}{m} \sum_{i=1}^{m} (h_{θ}(x^{(i)}) - y^{(i)})\end{align*}$

$\begin{align*}j = 1 时: \frac{∂}{∂θ_{1}}J(θ_{0},θ_{1}) &= \frac{∂}{∂θ_{1}} \frac{1}{2m} \sum_{i=1}^{m} (h_{θ}(x^{(i)}) - y^{(i)})^{2}\\ &= \frac{1}{m} \sum_{i=1}^{m} (h_{θ}(x^{(i)}) - y^{(i)})·x^{i} \end{align*}$

image

这就是用于线性回归的梯度下降，反复迭代直到收敛。

image

深入浅出--梯度下降法及其实现
梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
1.2梯度下降算法
梯度下降算法梯度下降算法可将代价函数最小化。在梯度下降算法在不停地一点点改变和，试图通过这种改变使得变小，直到...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...
11 回归算法 - BGD、SGD、MBGD梯度下降
=== 名词解释 === BGD：批量 - 梯度下降算法SGD：随机 - 梯度下降算法MBGD：小批量...
笔记6-Deep learning and backpropag
优化算法：梯度下降，反向传播（BP）是梯度下降实现方法之一。
梯度下降算法
1. 三种梯度下降算法： Batch Gradient Descent：全部样本梯度下降一次，批梯度下降每次更新...
机器学习——梯度下降、梯度下降的线性回归算法
一、梯度下降****梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数J(θo,θ1)的最...
一维梯度下降算法
一维梯度下降算法