美文网首页
梯度下降解决线性回归

梯度下降解决线性回归

作者: 5号船长 | 来源:发表于2018-11-09 22:50 被阅读22次

    梯度下降是机器学习中最核心的优化算法
    线性回归一般用于预测,比如股票涨跌


    tensorflow的一些操作.png

    tensorflow的一些等价操作:


    tensorflow的一些等价操作.png

    TensorFlow API文档查看方法:
    可以去官网在线的文档进行查看,网址为:https://www.tensorflow.org/,点击API选择对应的版本,选择对应的开发语言,就可以进入到API文档列表,或者之间到serach里面进行搜索查询即可。
    另一种方法就是直接在终端里面进行文档的查看:

    终端查看文档方法.png
    python
    source activate tensorflow-two
    help(tf.Tensor)
    help(tf.nn.relu)
    

    然后就可以在终端中看到具体文档了


    文档内容.png

    下面是一个例子:

    #-*- coding: UTF-8 -*-
    
    import numpy as np
    import matplotlib as plt
    import tensorflow as tf
    
    #构建数据
    points_num = 100
    vectors = []
    
    #用numpy的正态随机分布函数生成100个点
    #这些点的(x,y)坐标值对应线性方程 y = 0.1 * x + 0.2
    #权重(weight)是0.1 ,偏差(bias)是0.2
    for i in xrange(points_num):
        x1 = np.random.normal(0.0,0.66)
        y1 = 0.1 * x1 + 0.2 + np.rangom.normal(0.0,0.04)
        vectors.append([x1,y1])
        
    x_data = [v[0] for v in vectors]
    y_data = [v[1] for v in vectors]
    
    #展示所有100个随机数据点
    plt.plot(x._data, y_data, 'r*', label="data")
    plt.title("线性回归")
    plt.legend()
    plt.show()
    
    #构建线性回归模型
    W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) #初始化W
    b = tf.Variable(tf.zeros([1])) #初始化 b
    y = W * x_data + b
    
    #定义损失函数
    #对 Tensor 对所有维度计算((y - y_data ^ 2)) 之和 / N
    
    lose = tf.reduce_mean(tf.square(y - y_data))
    
    #用梯度下降对优化器来优化我们对 loss function
    optimizer = tf.train.GradientDescentOptimizer(0.5)
    train = optimizer.minimize(loss)
    
    #创建会话
    sess = tf.Session()
    
    #初始化数据流图中对所有变量
    init = tf.global_variables_initializer()
    sess.run(init)
    
    #训练 20 步
    for step in xrange(20):
        sess.run(train)
        print("Step=%d, Loss=%f, [Weight=%f Bias=%f]") \
        % (step, sess.run(loss), sess.run(W), sess.run(b))
        
    #绘制所有对点并且绘制出最佳拟合对直线
    plt.plot(x._data, y_data, 'r*', label="data")
    plt.title("线性回归")
    plt.plot(x_data, sess.run(W) * x_data + sess.run(b), label="Fitted line")
    plt.legend()
    plt.xlabel('x')
    plt.ylabel('y')
    plt.show()
    
    #关闭会话
    sess.close()
    
    下面简单介绍一下

    随机梯度下降算法
    SGD的思想是更新每一个参数时都使用一个样本来进行更新。每次更新参数都只使用一个样本,进行多次更新。这样在样本量很大的情况下,可能只用到其中的一部分样本就能得到最优解了。
    但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。

    特点:

    • 训练速度快
    • 准确度下降,并不是最优解,不易于并行实现

    小批量梯度下降算法
    MBGD的算法思想就是在更新每一参数时都使用一部分样本来进行更新。

    相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差,使得更新更加稳定。相对于批量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习,但是也要根据具体问题而选择,实践中可以进行多次试验,选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性,常用于神经网络中。

    补充
    在样本量较小的情况下,可以使用批量梯度下降算法,样本量较大的情况或者线上,可以使用随机梯度下降算法或者小批量梯度下降算法。

    在机器学习中的无约束优化算法,除了梯度下降以外,还有前面提到的最小二乘法,此外还有牛顿法和拟牛顿法。

    梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。

    梯度下降法和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。

    相关文章

      网友评论

          本文标题:梯度下降解决线性回归

          本文链接:https://www.haomeiwen.com/subject/nicnxqtx.html