序

梯度下降算法(Gradient Descent)是机器学习中最常用的算法之一，从网上看到的关于梯度下降算法的介绍感觉都过于理论化（有好多抽象的数学符号和公式），这篇文章从最简单两个函数问题入手，轻松愉快的理解梯度下降算法，完整代码请见github

基础概述

数学基础：高数会求偏导，知道均方误差损失函数（至少要知道损失函数这个词）

python版本anaconda 4.3.1：Anaconda可以认为是一个python的发行版本，提供了版本管理和包管理的功能，并且已经预装了许多第三方软件包：如pip、zmq、numpy、pandas等。

两个例子理解梯度下降

梯度下降算法的本质就是求导，当输入变量x多于1个时，就是求偏导。

导数的几何意义是函数曲线在这一点上的切线斜率（也就是说导数在这一点绝对值越大，曲线就越陡，也可以解释为y对x的变化率的描述或表达）；偏导数的几何意义是函数对某个变量的变化率的描述或表达（如果是二元函数z = x2 + y2，z对x的偏导数解释为z在x方向上的变化率）

数学理论部分这么多就足够了，如果想要复习，参考：

例子1：求解y = (x-3) * (x-3) + 3的最小值

先求y对x的导数：

y' = 2 * (x-3)

然后设定两个超参：

步长rate = 0.001

循环次数max_times = 10000

我们的任务是要找到一个x的值，使得y最小，很显然是当x=3时，y是最小的，下面我们用梯度下降算法来完成这个任务（注意，代码是不会像人一样用脑子计算函数的），算法很好解释：让x每次都沿着负梯度方向移动rate*导数的步长，循环max_times次后停止

import numpy as np

x = 2

rate = 0.001

max_times = 10000

def target_func(x):

"""这段函数就是y = (x-3) * (x-3) +3

"""

y = np.square(x - 3) + 3

return y

while count < max_times:

x = x - rate * 2*(x-3)

"""x的初始值为2(随便写)，2*(x-3)是导数y'，当x=2时y' = -2，那么就是x要向着-y'的方向移动0.001倍。新的x = 2 - 0.001 * -2 = 2 + 0.002 = 2.002。很好，离我们的目标值3近了一些（其实程序不知道3是最后要得到的目标值，程序也永远不会知道）。第二次循环后x = 2.002 - 0.001 * 2 * (2.002 -3) = 2.002 + 0.0019960000000000004 = 2.003996，离我们的目标值又近了一些。这里0.0019960000000000004只会保留17位的有效数字~

"""

print (count, "training-----current x is: ",x)

count = count + 1

print (x, target_func(x)) #最后看个结果

整个梯度下降算法的过程就是x不断的沿着负梯度方向一步一步一步的移动，直到循环完成（循环结束的标识不一定是次数，也可以设计为两次y之间的变化小于某个值，但如果这个值设定不恰当时，就可能造成抖动或提前结束循环）

例子2：根据训练集数据预测目标函数y = 2 * (x1) + (x2) + 3

首先，要处理的是最基本的线性回归问题，目标函数y = 2 * x1 + x2 +3是我们不知道的（计算机是真的不知道这个函数啊），只有一些待训练的数据（数据来源于网络）：

x_train = np.array([ [1, 2], [2, 1], [2, 3], [3, 5], [1, 3], [4, 2], [7, 3], [4, 5], [11, 3], [8, 7] ])

y_train = np.array([7, 8, 10, 14, 8, 13, 20, 16, 28, 26]

我们的任务是找到一个函数去描述上边x1,x2和y之间的对应关系。根据训练数据，假设y和x之间的关系是y = ax1 + bx2 + c（最基本的线性回归模型函数，a,b,c是权重）

这里，就要引入损失函数了，损失函数是评价一个模型好坏程度的函数，通俗的讲就是把当前的权重值带入到模型后得到的预测结果和真实结果之间误差的一个评分函数，训练模型的过程，就是通过算法使得损失函数不断减小。

损失函数我们选用均方误差函数，见下图

引入损失函数后，我们的任务就变成了找到一组对应的权重值，使损失函数最小，是不是已经很像求解y = (x-3)*(x-3) +3最小值的问题了：)

下面我们用梯度下降算法来完成这个任务

import numpy as np

a = np.random.normal() # 初始化3个权重

b = np.random.normal()

c = np.random.normal()

rate = 0.001 #步长

max_times = 10000 # 循环次数

# 训练集

x_train = np.array([ [1, 2], [2, 1], [2, 3], [3, 5], [1, 3], [4, 2], [7, 3], [4, 5], [11, 3], [8, 7] ])

y_train = np.array([7, 8, 10, 14, 8, 13, 20, 16, 28, 26])

# 待测试数据

x_test = np.array([ [1, 4], [2, 2], [2, 5], [5, 3], [1, 5], [4, 1] ])

# 目标函数

def h(x):

return a*x[0]+b*x[1]+c

for i in range(max_times):

for x, y in zip(x_train, y_train):

a = a - rate * (h(x)-y) * x[0] #代码后边来解释这个

b = b - rate * (h(x)-y) * x[1]

c = c - rate * (h(x)-y)

print("a =", a)

print("b =", b)

print("c =", c)

result = [h(xi) for xi in x_train]

print(result)

result = [h(xi) for xi in x_test]

print(result)