机器学习 | 优化——梯度下降（矩阵方式描述）

作者: 0与1的邂逅 | 来源:发表于2019-11-16 17:44 被阅读0次

机器学习 | 优化——梯度下降（矩阵方式描述）
梯度下降优化方法概述
梯度下降求解线性回归
机器学习学习笔记（六）梯度下降法
简述动量Momentum梯度下降
[机器学习入门] 李宏毅机器学习笔记-3 （Gradient D
秋招常见面试问题总结
秋招常见面试问题总结
（三）线性回归--梯度下降
机器学习-梯度下降算法

写在前面：

在前一篇文章中我们介绍了 梯度下降，当时的描述采用的是 代数的形式。但是，很多时候我们会更倾向于用矩阵来描述。

主要涉及到一定的矩阵分析的基础知识，尤其是 矩阵求导 方面的知识。

留一个传送门：闲话矩阵求导，介绍了有关矩阵求导的基础知识。

自己也是刚做一些了解，主要是做一下笔记，还望各位前辈海涵，多多指教。

梯度下降的矩阵描述：

首先，对于输入矩阵 $X$ 为 $m*n$ 的矩阵：

——图片来源：https://blog.csdn.net/qq_41670466/article/details/89053810

所以预测值为 $\widehat{y}=Xw$ ：

——图片来源：https://blog.csdn.net/qq_41670466/article/details/89053810

因此，预测值 $\hat{y}$ 与真实值 $y$ 之间的均方误差为：

$\operatorname{MSE}=\frac{1}{2} *(\hat{y}-y)^{2}=\frac{1}{2}(X \omega-y)^{2}$

注：乘上 $\frac{1}{2}$ 是为了后面求导的方便

接着，对这个式子进行化简：

首先，根据 $X^{T} X=\sum X_{i j}^{2}$ ，可得：

$M E S=\frac{1}{2}(X \omega-y)^{T}(X \omega-y)$

接着，根据矩阵转置的相关性质：

$(A+B)^T=A^T+B^T\ ；\ (AB)^T=B^{T}A^T$

对式子的括号进行展开，得：

$(X \omega-y)^{T}(X \omega-y)=w^TX^TXw-w^TX^Ty-y^TXw+y^Ty$

然后，我们对其进行梯度下降处理：

$\frac{\partial_{}\left(\omega^{T} X^{T} X \omega-\omega^{T} X^{T} y-y^{T} X \omega+y^{T} y\right)}{\partial{w}}$

接着，利用 矩阵迹函数的技巧，将上面的等式转换为：

$\frac{tr(\partial\left(\omega^{T} X^{T} X \omega-\omega^{T} X^{T} y-y^{T} X \omega+y^{T} y\right))}{\partial{w}}$

$=\frac{tr(\partial(\omega^{T} X^{T} X \omega))}{\partial{w}}-\frac{tr(\partial(\omega^{T} X^{T} y))}{\partial{w}}-\frac{tr(\partial(y^{T} X \omega))}{\partial{w}}+\frac{tr(\partial(y^{T} y))}{\partial{w}}$

对于第四项 $\frac{tr(\partial(y^{T} y))}{\partial{w}}$ ，结果为零矩阵。
对于第三项 $\frac{tr(\partial(y^{T} X \omega))}{\partial{w}}$ ，将其转换为 $\frac{tr(\partial{(y^{T} X \omega})^T)}{\partial{w}}=\frac{tr(\partial{(w^TX^Ty}))}{\partial{w}}=X^Ty$ 。
对于第二项 $\frac{tr(\partial(w^{T} X^T y))}{\partial{w}}$ ，与第三项相等，结果也为 $X^Ty$ 。
对于第一项 $\frac{tr(\partial(\omega^{T} X^{T} X \omega))}{\partial{w}}$ ，利用公式 $tr(d(AXBX^T))=X^TAB+AXB$ ，将该公式中的 $A$ 看成单位矩阵，从而可以忽略；将该公式中的 $X$ 看成 $w^T$ ， $B$ 看成 $X^TX$ 。因此，求得第一项最终为： $2X^TXw$ 。

最终，求得原来式子的结果为：

$\frac{\partial_{}\left(\omega^{T} X^{T} X \omega-\omega^{T} X^{T} y-y^{T} X \omega+y^{T} y\right)}{\partial{w}}=\frac{1}{2}(2X^TXw-2X^Ty)$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =X^TXw-X^Ty=X^T(Xw-y)$

因此，最后参数 $w$ 的更新表达式为：

$w=w-\alpha X^T(Xw-y)$

其中 $\alpha$ 为学习率。

关于迹函数的技巧，可以参考：

写在最后：

参考资料：

学无止境！！！

机器学习 | 优化——梯度下降（矩阵方式描述）
写在前面：在前一篇文章中我们介绍了梯度下降，当时的描述采用的是代数的形式。但是，很多时候我们会更倾向于用矩...
梯度下降优化方法概述
梯度下降是优化神经网络和机器机器学习算法的首选优化方法。本文重度参考SEBASTIAN RUDER[https:/...
梯度下降求解线性回归
什么是梯度下降？在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最...
机器学习学习笔记（六）梯度下降法
基础（1）梯度下降法本身不是一个机器学习算法（2）梯度下降法是一种基于搜索的最优化方法（3）梯度下降法的作用...
简述动量Momentum梯度下降
梯度下降是机器学习中用来使模型逼近真实分布的最小偏差的优化方法。在普通的随机梯度下降和批梯度下降当中，参数的更新是...
[机器学习入门] 李宏毅机器学习笔记-3 （Gradient D
[机器学习入门] 李宏毅机器学习笔记-3 （Gradient Descent ；梯度下降） Review 梯度下降...
秋招常见面试问题总结
1、常见的机器学习优化器 1.1 gradient descent 1.1.1 全量梯度下降(Batch grad...
秋招常见面试问题总结
1、常见的机器学习优化器 1.1 gradient descent 1.1.1 全量梯度下降(Batch grad...
（三）线性回归--梯度下降
一、梯度下降二、代码的实现（一.梯度下降）导包构建数据梯度下降使用梯度下降，可视化 (二。梯度下降矩阵...
机器学习-梯度下降算法
在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降算法（Gradient Descent Algori...