线性回归+梯度下降

作者: bf3780a4db09 | 来源:发表于2019-02-14 11:15 被阅读10次

梯度下降
ML-梯度下降代码-线性回归为例
用人话讲明白梯度下降Gradient Descent（以求解多元
第2章单变量&多变量线性回归
Machine Learning 学习笔记-线性回归
机器学习系列（十六）——随机梯度下降Stochastic Gra
2020-08-19--梯度下降法01
线性回归及梯度下降
2019-01-29 随机梯度下降(stochastic gra
2018-12-06线性回归的梯度下降

例子：
假设存在以下数据
工资年龄额度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000
上表中，将工资 ${x_1}$ 和年龄 ${x_2}$ 看作两个特征，将额度看作标签，现在需要计算出工资和年龄分别对贷款额度产生多大的影响（参数）
首先，给出预测值的拟合公式
${h_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2}{\rm{ = }}\sum\limits_{i = 0}^2 {{\theta _i}{x_i}} = {{\bf{\theta }}^{\bf{T}}}{\bf{X}}$
但是，一般来说，预测值和真实值之间存在差异，为了将差异考虑进来。对于第 $i$ 个样本，通常有如下式子成立
${y^{(i)}} = {{\bf{\theta }}^{\bf{T}}}{{\bf{X}}^{(i)}} + {\varepsilon ^{(i)}}$
其中， ${\varepsilon ^{(i)}}$ 被称为误差项，每个样本的误差项独立且服从相同的分布（均值为0，方差为 ${\sigma ^2}$ 的正态分布），所以有以下式子成立
$f({\varepsilon ^{(i)}}) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp ( - {({\varepsilon ^{(i)}})^2}/2{\sigma ^2})$
得
$f({y^{(i)}}|{{\bf{X}}^{(i)}};{\bf{\theta }}) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp ( - {({y^{(i)}} - {{\bf{\theta }}^{\bf{T}}}{{\bf{X}}^{(i)}})^2}/2{\sigma ^2})$
下面需要说的是怎么估计出参数 ${\bf{\theta }}$ 最合理的值
第一步，引入似然函数【用数据推参数，计算出参数值是多少时与我们的数据 ${\bf{X}}$ 结合恰好为真实值 $y$ ，主要目标是使得得到的数据为真实值的可能性越大越好】。对于同一个似然函数，如果存在一个参数值，使得它的函数达到最大的话，这个值就是最为合理的参数值，在已知观测数据的情况下，参数 ${\bf{\theta }}$ 的似然函数为，懒得转latex了直接截图了

image.png
第二步，取对数似然，直接算乘积不好算，用对数的话可以分解成加法

image.png
为了使似然函数达到最大，必须使

image.png 达到最小,因此令

image.png
上式实际就是残差平方和的一半，求该式的最小值就是求使得残差平方和最小的参数值，即最小二乘估计
第三步，求导
首先把上式展开

image.png
此处涉及到矩阵求导的问题，常用的矩阵求导公式如下

image.png
求导如下

image.png
令导数等于0，得到

image.png
此外，可用以下指标来评估模型预测性能

image.png
当残差平方和越小，上述指标越大【越接近1】，预测性能越好。
但是并不是所有的数据都恰好能用这种方法求解出参数，线性回归只能当做一个特例，下面引入梯度下降方法，
假设现在的目标函数是

image.png
其中

image.png
1）批量梯度下降

image.png
这种方法容易得到最优解（过度收敛），但是由于每次都考虑所有样本，迭代速度会非常慢
2）随机梯度下降

image.png
这种方法每次只随机使用一个样本，迭代速度快，但是不一定每次都朝着收敛的方向（比如离群点，收敛过程不稳定）
3）小批量梯度下降

image.png
其中

\alpha

表示学习率（步长），一般较小。这种方法每次采用部分样本，避免了采用全部样本的耗时慢和一个样本的收敛结果不稳定问题。在迭代过程中，学习率可以改变，比如第1-10000次迭代，学习率设为0.01（稍大），10001-20000次迭代中，学习率设为0.005,20001-100000次迭代中，学习率设为0.001，即在离最低点比较远的时候，可以设定稍大的步长，越靠近最低点，步长越小，越要一步步走，避免错失合理的参数值。

梯度下降
线性回归梯度下降
ML-梯度下降代码-线性回归为例
梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降
用人话讲明白梯度下降Gradient Descent（以求解多元
文章目录1.梯度2.多元线性回归参数求解3.梯度下降4.梯度下降法求解多元线性回归梯度下降算法在机器学习中出现频...
第2章单变量&多变量线性回归
单变量线性回归梯度下降法 Gradient descent 用梯度下降法最小化代价函数J 多变量线性回归 mul...
Machine Learning 学习笔记-线性回归
平方差梯度下降线性回归
机器学习系列（十六）——随机梯度下降Stochastic Gra
随机梯度下降法Stochastic Gradient Descent 在之前的梯度下降法解决线性回归问题中，梯度向...
2020-08-19--梯度下降法01
梯度下降法简介多元线性回归中的梯度下降法随机梯度下降法梯度下降法的调试 1.梯度下降法简介不是一个机器学...
线性回归及梯度下降
重点： 1 线性回归定义 2 cost function 损失函数 3 梯度下降线性回归（Linear Regr...
2019-01-29 随机梯度下降(stochastic gra
随机梯度下降的思想也可以应用于线性回归、逻辑回归、神经网络或者其他依靠梯度下降来进行训练的算法中。梯度下降法的问...
2018-12-06线性回归的梯度下降
当梯度算法应用于线性回归的情况时，可以导出梯度下降方程的新形式。我们将梯度下降和平方误差代价函数结合：用于线性...