美文网首页
机器学习基础-梯度下降方法与牛顿法

机器学习基础-梯度下降方法与牛顿法

作者: 田田ww | 来源:发表于2019-03-20 22:09 被阅读0次

相关概念:

步长(learning rate):步长决定了梯度下降过程中,每一步沿梯度负方向前进的长度

特征(feature):样本输入

矩阵求导的链式法则:

公式一:\frac{\partial(XX^T)}{\partial X} =2X

公式二:\frac{\partial X}{\partial x} = X^T

假设函数(hypothesis function):监督学习中,为拟合输入样本,使用的假设函数,记为h_\theta(x)

损失函数(loss function):为评估模型拟合好坏,用损失函数度量拟合程度。损失函数极小化意味着拟合程度最好,对应的模型参数即为最优。线性回归中,损失函数通常为样本输出和假设函数的欧式距离(L2距离),即J(\theta) = \sum_{i=0}^m(h_\theta(x_i)-y_i)^2

梯度下降法(gradient descent)是求解无约束最优化问题的一种最常用方法,实现简单,梯度下降法是迭代算法,每一步需要求解目标函数的梯度。

1.确定优化模型的假设函数和损失函数

2.算法相关参数初始化:主要对象\theta_i(i=1,2,...,N),算法终止距离\varepsilon 和步长\eta

3.算法过程

1)确定当前位置的损失函数梯度,对于\theta_i其梯度表达式如下:

\frac{\partial}{\partial{\theta_i}} J(\theta_0,\theta_1,...,\theta_n),也可直接对损失函数在\theta_i处进行一阶泰勒展开。

2)步长乘损失函数梯度,得到当前位置下降的距离,即\theta_i=\theta_i-\eta \frac{\partial}{\partial{\theta_i}} J(\theta_0,\theta_1,...,\theta_n)

3)确定是否所有\theta 梯度下降距离都小于\varepsilon ,如果小于则算法终止,当前所有\theta 即为最终结果,否则进入步骤4

4)更新所有\theta ,对\theta_i其更新表达式如下,更新完毕继续转入步骤1

\theta_i^{k+1}\leftarrow \theta_i^k-\eta \frac{\partial}{\partial{\theta_i^k}} J(\theta_0^k,\theta_1^k,...,\theta_n^k)

向量表示为

\theta_i^{k+1}\leftarrow \theta_i^k-\eta G_k

SGD(随机梯度下降算法)

现在随机梯度下降算法一般指小批量梯度下降法(mini-batch gradient descent)

采用小批量样本更新\theta ,选择n个训练样本(n<m,m为总训练集样本数),在这n个样本中进行n次迭代,每次使用1个样本,对n次迭代得出的n个gradient进行加权平均再并求和,作为这一次mini-batch下降梯度。

梯度下降算法与其他无约束优化算法比较

与最小二乘相比,梯度下降法迭代求解,最小二乘法计算解析解,样本小且存在解析解则最小二乘法比梯度下降更有优势,计算速度快,样本大则需要解一个超大的逆矩阵,难解且耗时。

与牛顿法相比,两者均为迭代求解,梯度下降法是梯度求解,牛顿法用二阶梯度或海森矩阵的逆矩阵或伪逆矩阵求解。牛顿法收敛更快但每次迭代时间比梯度下降法长。

牛顿法

牛顿法和梯度下降法示意图如下:

左图为梯度下降法,右图为牛顿法

由上图可知牛顿法每次迭代希望找到\theta_i处切线与横轴的交点,即为所求的更新值

\theta_i^k处对损失函数进行二阶泰勒展开

J(\theta) = J(\theta^k)+G_k^T(\theta-\theta^k)+\frac{1}{2} (\theta-\theta^k)^T(\theta-\theta^k)H(\theta^k)

其中一阶导G_k^T对应雅可比矩阵,二阶导H(\theta^k)对应海森矩阵

G_0^T = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & ... &\frac{\partial f_1}{\partial x_n} \\ ... & ...& ....\\ \frac{\partial f_m}{\partial x_1} & ... &\frac{\partial f_m}{\partial x_n}\end{bmatrix}\quadH = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2}  & \frac{\partial^2 f}{\partial x_1\partial x_2}&... &\frac{\partial^2 f}{\partial x_1\partial x_n} \\ \frac{\partial^2 f}{\partial x_2\partial x_1}& ...& ....&...\\ ...&...&...&...\\\frac{\partial^2 f}{\partial x_n\partial x_1} & ... &...& \frac{\partial^2 f}{\partial x_n^2}\end{bmatrix}\quad

函数J(\theta) 有极值的必要条件是在极值点处一阶导数为0,即梯度向量为0

将其一阶导在\theta_i^k处进行泰勒展开

\nabla J(\theta) = G_k+H(\theta_i^k)(\theta_i^{(k+1)}-\theta_i^k)=0

则可得

\theta_i^{k+1} \leftarrow \theta_i^k-H^{-1}(\theta_i^k)G_k

代数表示为

\theta_i^{k+1}\leftarrow \theta_i^k-\frac{J`(\theta_i)}{J``(\theta_i)}

比较两者差别,牛顿法迭代次数较少但求二阶海森矩阵及其逆非常复杂。

相关文章

  • 机器学习基础-梯度下降方法与牛顿法

    相关概念: 步长(learning rate):步长决定了梯度下降过程中,每一步沿梯度负方向前进的长度 特征(fe...

  • 梯度优化算法

    梯度下降,共轭梯度法;牛顿法,拟牛顿法;信赖域方法,罚函数法。

  • 最优化方法

    常见最优化方法 1.梯度下降法 2.牛顿法 3.拟牛顿法 4.共轭梯度法

  • 局部搜索之牛顿法

    除了前面说的梯度下降法,牛顿法也是机器学习中用的比较多的一种优化算法。 牛顿法求方程解 牛顿法又称为牛顿-拉弗森方...

  • 机器学习学习笔记(六)梯度下降法

    基础 (1)梯度下降法本身不是一个机器学习算法 (2)梯度下降法是一种基于搜索的最优化方法 (3)梯度下降法的作用...

  • GBDT与XGBoost

    之前介绍过梯度下降法与牛顿法,GBDT与XGBoost就与这两种方法有关。 boosting(包括GBDT、XGB...

  • PyTorch基础知识

    一. 常用优化方法 最小二乘法,牛顿法,拟牛顿法,梯度下降法 二. tensor和numpy array的相互转换...

  • 机器学习入门之 — 梯度下降,牛顿法,拟牛顿法

    梯度下降法 梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为: ...

  • 牛顿法和梯度下降法的学习

    牛顿法和梯度下降法的差别 牛顿法:二次逼近梯度下降法:一阶逼近 牛顿法:对局部凸的函数找到极小值,对局部凹的函数找...

  • Logistic回归与最大熵模型-优化算法

    Logistic回归与最大熵模型-理论推导中提到了4个优化算法:分别是: 梯度下降算法 拟牛顿法(牛顿法) 通用迭...

网友评论

      本文标题:机器学习基础-梯度下降方法与牛顿法

      本文链接:https://www.haomeiwen.com/subject/iygzmqtx.html