一文带你了解机器学习基础：梯度下降和最小二乘法

在开始本文之前，有兴趣的可以浏览一下这个文章，人工智能中的最优化问题。
人工智能数学基础之最优化方法

两者的区别

最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值，那它们有什么区别呢。

相同

本质相同：两种方法都是在给定已知数据（independent & dependent variables）的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。
目标相同：都是在已知数据的框架内，使得估算值与实际值的总平方差尽量更小（事实上未必一定要使用平方），估算值与实际值的总平方差的公式为：

image

其中\bar{x_{i} }为第i组数据的independent variable，y_{i}为第i组数据的dependent variable，\beta为系数向量。

不同

实现方法和结果不同：最小二乘法是直接对\Delta求导找出全局最小，是非迭代法。而梯度下降法是一种迭代法，先给定一个\beta，然后向\Delta下降最快的方向调整\beta，在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢，并且对初始点的选择极为敏感，其改进大多是在这两方面下功夫。

问题

那么问题来了，为什么梯度下降应用的更多呢？理论上计算就能得出全局最优，当然比局部最优要好呀，而且是直接求出来，不需要迭代算。
参考答案：
对复杂的的模型而言，随机初始化然后梯度下降一步步探索比直接数学求解全局最优解有更好的可行性。好比做积分，如果直接代数方法积出母函数那肯定棒啊，但是公式太复杂了，积分就做不出来了，所以要用蒙特卡洛之类的数值方法去逼近。线性模型最小二乘的解是closed-form（闭式解：带参数的解），而非线性最小二乘没有closed-form（闭式解），通常用迭代法求解。其中有很多比较有名的迭代法，如梯度下降法(又分为批梯度下降、随机梯度下降)、牛顿法、拟牛顿法等，它们的应用条件更为广泛（无约束），都是通过迭代更新来逐步进行的参数优化方法，最终结果为局部最优。如果函数为凸函数的话

最小二乘法的局限性

image
上面内容来自于https://www.cnblogs.com/pinard/p/5976811.html

最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

通过这段描述可以看出来，最小二乘法也是一种优化方法，求得目标函数的最优值。并且也可以用于曲线拟合，来解决回归问题。难怪《统计学习方法》中提到，回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以著名的最小二乘法来解决。(来源于https://www.cnblogs.com/armysheng/p/3422923.html)
什么是最小二乘法
我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的（如分成1，2，3，4，5五类，我是帅哥和不是帅哥就是离散的，属于分类问题），我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面...

对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

    （1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
    （2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
    （3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。
　

image
　

image
　这里是矩阵求解最小二乘法
　关于最小二乘法结合参考，下面在矩阵证明上，没有上面的连接详细。由于涉及到线性代数矩阵内容。
　 https://www.cnblogs.com/pinard/p/5976811.html

梯度下降

刘老师带你了解梯度下降
上面的链接文章可以带你了解最基础的梯度下降。非常详细，容易理解。
下面这个链接，从宏观的基础上了解梯度下降，毕竟我们不能只知道最简单的。也要知道优化过后的，还有在实际情况证明用到这个。
https://blog.csdn.net/u013709270/article/details/78667531/
另外的角度阐述
 超参数的解释
大神太多，本菜鸡只能整理他们的资料。毕竟重复造轮子就是在浪费资源。
下面又是一个大神写的，我这个菜鸡看的明明白白。不足的内容，上面有些链接也涉及到。毕竟每个人的侧重点不一样。
https://www.jianshu.com/p/c7e642877b0e