ML中的梯度下降

作者: 天之見證 | 来源:发表于2019-03-19 00:13 被阅读0次

ML中的梯度下降
随机梯度下降法与批量梯度下降法的区别
（三）线性回归--梯度下降
深入浅出--梯度下降法及其实现
神经网络优化2
浅谈神经网络中的梯度爆炸问题
机器学习-常用优化方法
2020-08-19--梯度下降法01
ML-梯度下降代码-线性回归为例
最速下降和梯度下降

1. 梯度下降

以最小二乘为例, 损失函数为:
$L(\mathbf{w})=\frac{1}{2}\sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)^2$
对 $w_j$ 求导得到:
$\begin{align} \frac{\partial{L(\mathbf{w})}}{\partial w_j}&=\sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)x_{ij} \\ &=\sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)x_{ij} \end{align}$
表示称向量形式如下:

$\frac{\partial{L(\mathbf{w})}}{\partial \mathbf{w}}=\begin{bmatrix} \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)x_{i1} \\ \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)x_{i2} \\ \vdots \\ \sum_{i=1}^N(\mathbf{w}^T\mathbf{x}_i-y_i)x_{iD} \end{bmatrix}_{D\times1}$

对 $\mathbf{w}$ 的更新如下:
$\mathbf{w}\leftarrow \mathbf{w}-\alpha \frac{\partial{L(\mathbf{w})}}{\partial \mathbf{w}} \tag{2}$

2. mini-batch梯度下降

每次随机选取 $m$ 个观测值来更新权重:
$\frac{\partial{L(\mathbf{w})}}{\partial \mathbf{w}}=\begin{bmatrix} \sum_{i=k}^{k+m}(\mathbf{w}^T\mathbf{x}_i-y_i)x_{i1} \\ \sum_{i=k}^{k+m}(\mathbf{w}^T\mathbf{x}_i-y_i)x_{i2} \\ \vdots \\ \sum_{i=k}^{k+m}(\mathbf{w}^T\mathbf{x}_i-y_i)x_{iD} \end{bmatrix}_{D\times1}$
这样可以看做每次都用一个不同的损失函数:
$L_k(\mathbf{w})=\frac{1}{2}\sum_{i=k}^{k+m}(\mathbf{w}^T\mathbf{x}_i-y_i)^2 \tag{4}$

3. 随机梯度下降 (SGD)

每次通过一个观测值 $(\mathbf{x}_i,y_i)$ 来更新权重:
$\frac{\partial{L(\mathbf{w})}}{\partial \mathbf{w}}=\begin{bmatrix} (\mathbf{w}^T\mathbf{x}_i-y_i)x_{i1} \\ (\mathbf{w}^T\mathbf{x}_i-y_i)x_{i2} \\ \vdots \\ (\mathbf{w}^T\mathbf{x}_i-y_i)x_{iD} \end{bmatrix}_{D\times1} \tag{5}$
这样可以看做每次都用一个不同的损失函数:
$L_i(\mathbf{w})=\frac{1}{2}(\mathbf{w}^T\mathbf{x}_i-y_i)^2 \tag{6}$