8.1 引言

梯度方法其实就是我们神经网络中的gradient decent，梯度下降。
首先回顾以下概念：
水平集
梯度
梯度是一个实值可微函数在某点处函数值增加最快的方向，它正交于经过改点的水平集。因此，梯度负方向是函数减少最快的方向，这应该是一个很好的搜索方向。
令 $x^{(0)}$ 作为初始搜索点，并沿着梯度负方向构建一个新点 $x^{(0)}-\alpha \nabla f(x^{(0)})$ ,则可以推论出新点的函数值较原始点更优，证明如下：
由泰勒定理：
$f(x^{(0)}-\alpha \nabla f(x^{(0)}) = f(x^{(0)})- \alpha||\nabla f(x^{(0)})||^2+o(\alpha)$
因此，当 $\nabla f(x^{(0)}) \neq 0$ 且 $\alpha>0$ 足够小时，可以保证：
$f(x^{(0)}-\alpha \nabla f(x^{(0)}) < f(x^{(0)})$
因此，我们可以获得如下迭代公式：
$x^{(k+1)} = x^{(k)}-\alpha \nabla f(x^{(k)})$
这种搜索过程中，梯度会不断变化，当接近极小点，梯度应趋近于0。所以这时候步长就很重要了。

8.2 最速下降法

最速下降法是梯度方法是一种具体实现。其理念为每次迭代选择合适的步长 $\alpha_k$ ，是的目标函数能够得到最大程度的减小。
最速下降法的迭代流程为：每步迭代中，从当前迭代点 $x^{(k)}$ 出发，沿着梯度负方向 $-\nabla f(x^{(k)}$ 展开搜索，直到找到步长的最优结果，确定新的迭代点。
最速下降法的搜索方向是正交的，如图：