偏导、方向导数和梯度
(1)偏导:函数在坐标轴方向上的变化率(一维方向)
设函数在点
的邻域内有定义,当
时,
可以看作是关于
的一元函数
,若该一元函数在
处可导,即有
函数的极限存在,那么称
为函数
在点
处关于自变量
的偏导数
(2)方向导数: 函数在某点沿某个特定方向的变化率
![](https://img.haomeiwen.com/i13228477/dbd4ae7dbb08833e.png)
(3)梯度:函数在该点沿所有方向变化率最大的那个方向(最大的方向导数)
几种梯度下降方法
(1)梯度下降(BGD):梯度下降使用整个训练数据集来计算梯度,因此有时被称为批量梯度下降(batch gradient descent)
(2)随机梯度下降(SBGD):在每次迭代中只随机采样一个样本来计算梯度(Stochastic Gradient Descent)
(3)小批量随机梯度下降(MSGD):在每次迭代中随机均匀采样多个样本来组成一个小批量,使用当前小批量来计算梯度
梯度下降和随机梯度下降
指数加权平均(几个优化算法的基础)
- 指数加权平均的关键等式
![](https://img.haomeiwen.com/i13228477/ae6eb3ca82c6ccfc.png)
![](https://img.haomeiwen.com/i13228477/c767ca8511712f40.png)
对应图中红色的线(近十天的平均气温),
对应图中绿色的线(近50天的平均气温),
的值越大,得到的曲线会更平滑(因为对更多天数的温度做了平均处理)
- 指数滑动平均的具体使用
![](https://img.haomeiwen.com/i13228477/e2419933f6beff43.png)
- 偏差修正(更精确的计算平均值)
针对上一部分中的公式,滑动平均曲线的初始起点很低(;
使得等式右边第一项为
),因此在估计运算初期我们需要一种更好的方法去进行估计:
用代替
![](https://img.haomeiwen.com/i13228477/c5d634250529c4bc.png)
网友评论