美文网首页
机器学习--随机梯度下降算法

机器学习--随机梯度下降算法

作者: IT满仓 | 来源:发表于2018-10-24 10:33 被阅读0次

    对于样本数量额非常之多的情况,Batch Gradient Descent(批量梯度下降)算法会非常耗时,因为每次迭代都要便利所有样本,可选用Stochastic Gradient Descent 算法,需要注意外层循环Loop,因为只遍历一次样本,不见得会收敛。


    743682-20151126140949671-555319333.png

    随机梯度算法就可以用作在线学习了,但是注意随机梯度的结果并非完全收敛,而是在收敛结果处波动的,可能由非线性可分的样本引起来的:

    可以有如下解决办法:

    1. 动态更改学习速率a的大小,可以增大或者减小

    2. 随机选样本进行学习

    代码:

    
    import numpyas np
    
    __author__ ='liyan'
    
    X =2 * np.random.rand(100, 1)
    
    y =4 +3 * X + np.random.randn(100, 1)
    
    X_b = np.c_[np.ones((100, 1)), X]
    
    # print(X_b)
    
    n_epochs =500
    
    t0,t1 =5,50
    
    m =100#100个样本
    
    def learning_schedule(t):#学习率逐渐减少
    
            return t0/(t+t1)
    
    theta = np.random.randn(2,1)
    
    for epochin range(n_epochs):
    
    for iin range(m):#100条数据随机抽取一条
    
            random_index = np.random.randint(m)# 随机返回0~99数
    
            xi = X_b[random_index:random_index+1]
    
            yi = y[random_index:random_index+1]
    
            gradients =1*xi.T.dot(xi.dot(theta)-yi)#梯度
    
            #1/m*xi.T.dot(xi.dot(theta)-yi)
    
            learning_rate = learning_schedule(epoch*m+i)#学习率逐渐减少
    
            theta = theta-learning_rate*gradients
    
    print(theta)
    

    运行代码,计算得到的结果如下:

    image

    总结:

    1. 概念:随机梯度下降(sgd)
      什么是随机梯度下降,怎么随机的呢?
      其实就是在求梯度的时候,不再用所有的m个样本数据来计算,而是随机的选择一条数据来计算梯度!

    2. 随机梯度下降的好处是什么?缺点是什么?
      在求梯度的时候快,迭代次数有可能更多,最终可能落不到全局最优解上

    3. Mini-Batch GD是什么?
      就是在求梯度的时候做了一个折中,不用所有的数据,而是随机选择一部分数据来求梯度!

    4. 上面代码里面除了随机抽取一条数据来求解梯度,还随着迭代次数的增多,不断减小步长!learning_rate

    5. 为什么要不断的调整步长?
      就是为了让越接近最优解的时候,调整的幅度越小,避免来回震荡!

    6. 如果我们不人为的调小步长,会不会随着迭代的次数增多,调整的幅度自动减小?
      调整的幅度取决于谁?却决于学习率和梯度,梯度事实上越接近最优解,梯度的绝对值越小

    相关文章

      网友评论

          本文标题:机器学习--随机梯度下降算法

          本文链接:https://www.haomeiwen.com/subject/mpjttqtx.html