哲哲的ML笔记（三：梯度下降）

作者: 沿哲 | 来源:发表于2020-08-22 21:58 被阅读0次

哲哲的ML笔记（三：梯度下降）
哲哲的ML笔记（六：多元梯度下降-特征缩放）
哲哲的ML笔记（三十三：批量、随机梯度、小批量梯度下降）
哲哲的ML笔记（二：模型）
哲哲的ML笔记（四：矩阵）
哲哲的ML笔记（七：学习率）
哲哲的ML笔记（九：正规方程）
哲哲的ML笔记（十八：反向传播）
哲哲的ML笔记（十一：决策边界）
哲哲的ML笔记（十四：正则化）

1. 前提回顾

已知：代价函数 $J(\theta_0, \theta_1)$ ，希望找到对应的参数 $\theta_0, \theta_1$ 使得 $J$ 最小
思路：令 $\theta_0, \theta_1$ 从任意值开始（一般设置为 $\theta_0=0, \theta_1$ =0）；每次微小改变 $\theta_0, \theta_1$ 直到 $J$ 最小

2. 梯度下降的直观感受

假设代价函数 $J$ 这样，横坐标为 $\theta_0, \theta_1$ ，纵坐标为 $J$

课程中有个很形象的比喻：将上图的这个代价函数比作公园里的山地，想象一下你站立在这座红色山上，要寻找最快下山的路线。走一步之后再寻找下一步的方向，如此循环，直到达到局部最小处。（对应左边的黑路线）
假设这次开始的位置比刚才靠右了一些，那么这次寻找的路线可能就和第一次不一样（右边的黑色路线），直到到达第二个局部最优处。

3. 梯度下降的数学原理

细节1：下式中 $\alpha$ 是学习率，若 $\alpha$ 很大，那么梯度下降就很快（迈大步下山）

梯度下降算法

细节2： $\theta_0, \theta_1$ 需要同步更新，下图中展示了两种更新方法，一种正确一种错误。错误方法错误之处在于：先更新了 $\theta_0$ ，用更新完的 $\theta_0$ 再去更新 $\theta_1$ ，没有做到同步

python

传参说明：
X：特征，比如一个城市的人口，假设有97个样本，维度为97*2
theta:
y： label，比如对应的商户盈利
myiter：迭代次数
myalpha： $\alpha$

def gradientDescent(X,theta,y,myiter,myalpha):
    m=X.shape[0] #获取样本数
    parament_len=X.shape[1]#需要的 $\theta$ 
    cost=np.zeros(myiter) 
    
    for i in range(myiter):
        error=X*theta.T-y #97*2 2*1=97*1
        
        for j in range(parament_len):
            term=np.multiply(error,X[:,j])# 对应位相乘，结果为97*1
            theta[0,j]=theta[0,j]-(myalpha/m)*np.sum(term)
        cost[i]=computecost(X,theta,y)
    return theta,cost

为深入探究这些表达式的含义，仍然从一个参数 $\theta_1$ 开始讨论，当 $\theta_1$ 在最低点右侧（下图）时， $\frac{\mathrm{d} J }{\mathrm{d} \theta_1} >0$ ，根据 $\theta_1=\theta_1-\alpha\frac{\mathrm{d} J }{\mathrm{d} \theta_1}$ ， $\theta_1$ 会减小，靠近最低点

同理可得，当

\theta_1

在最低点左侧时……

此时，再来看一下 $\alpha$ ，就很容易理解为什么 $\alpha$ 过大或者过小时会发生什么

$\alpha$ 过小时， $\theta_1$ 每次更新移动的步伐会很小，需要很长时间才能到达最低点； $\alpha$ 过大时，会直接越过最低点，甚至离最低点越来越远以致不能收敛

还有一点，即 $\alpha$ 是固定的，也可以收敛到最低点。假设最初的点是下图中粉色，这点点斜率较陡峭，下一个更新的绿点会距离粉点较远；但绿点的斜率已经没有之前那么陡，所以下下一个红点会距离绿点近一些……以此类推直到到达最低点！

4. 线性回归的梯度下降

将之前学习的梯度下降和线性回归的平方差代价函数结合

可以得到下式

再不断迭代上式直至参数收敛

收敛过程中我们比较担心会陷入局部最优，但是对于线性回归代价函数总是“凸函数”，即总有全局最优解。如下图所示

处于同一等高线上的 $\theta_0、\theta_1$ 对应相同值的 $J$ ，有相同的代价值。当 $\theta_0、\theta_1$ 向汇聚点靠近时， $\theta_1$ 由负变正，斜率变化很明显。

等高线的图中显示了从初始化的值一步步到收敛的最小值过程，左边显示了对应更新的 $\theta_0、\theta_1$ 时 $h(\theta_0、\theta_1)$ 的变化

5. 总结

上面的梯度下降算法中，迭代 $\theta_0、\theta_1$ 用到了全部的样本，称之为batch梯度下降；也有非batch梯度下降，即关注了样本的小子集

哲哲的ML笔记（三：梯度下降）
1. 前提回顾已知：代价函数，希望找到对应的参数使得最小思路：令从任意值开始（一般设置为=0）；每次微小改变直到...
哲哲的ML笔记（六：多元梯度下降-特征缩放）
为什么要特征缩放多维特征问题的时候，我们要保证这些特征都具有相近的尺度:房屋的尺寸：房屋的数量:房屋价格尺寸的值...
哲哲的ML笔记（三十三：批量、随机梯度、小批量梯度下降）
随机梯度下降如果我们一定需要一个大规模的训练集，我们可以尝试使用随机梯度下降法来代替批量梯度下降法。从下图中可...
哲哲的ML笔记（二：模型）
1. 参数设定：训练实例数：输入变量/特征：预测的目标变量：一个训练样本：第 i 个训练样本：hypothesi...
哲哲的ML笔记（四：矩阵）
此处简略了很多内容，实际课程中讲得很细、很基础矩阵乘法性质 1.不满足交换律：满足结合律：转置、逆没有逆矩...
哲哲的ML笔记（七：学习率）
代价函数-迭代次数梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和...
哲哲的ML笔记（九：正规方程）
到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程方法是更好的解决方案正规方程是通过求解 ...
哲哲的ML笔记（十八：反向传播）
正向传播在之前介绍的通过神经网络预测结果，我们使用的其实是一种正向传播方法，从第一层开始正向一层一层进行计算，直...
哲哲的ML笔记（十一：决策边界）
决策边界根据函数表达式和图像，可以得到则假设有这样一个模型并且参数是向量[-3 1 1]。则当，即 ...
哲哲的ML笔记（十四：正则化）
过拟合的表现如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但...