美文网首页
线性回归

线性回归

作者: 煮饺子的茶壶 | 来源:发表于2018-09-25 19:30 被阅读0次

    假设函数:

    参数:θ

    特征量:x

    代价函数:

    梯度下降算法:下图为梯度下降的目的,找到J(θ)的最小值。

    例子

    其实,J(θ)的真正图形是类似下面这样的,因为其是一个凸函数,只有一个全局最优解,所以不必担心像上图一样找到局部最优解。

    凸函数 等高线图 θ参数公式

    特征缩放:

    特征缩放(Feature scaling),在这里我认为它是对用于梯度下降法的数据进行处理的方法。它的作用是,将多个特征的数据的取值范围处理在相近的范围内,从而使梯度下降更快地收敛。

    (1) 该特征的值/该特征的最大值

    x=x/s

    (2) (该特征值-该特征最大取值的一半)/(该特征的最大值)

    x=(x-μ)/s

    μ:特征量平均值           s:特征量最大值减最小值

    学习率:

    除了特征的缩放会影响梯度下降的运算,学习速率也会直接影响。这里所说的“学习速率”,指的是梯度下降表达式中的α。

    如何判断学习速率是否合适?最直接的方法是,画出训练后代价函数和迭代数的图像,根据图像去判断调整。除此之外,还可以使用自动检测法。即当代价函数在迭代中,小于一个很小的值时,我们就认为梯度下降收敛。但是,这个“很小的值”是很难确定的,一般可取1e-3。当然,还是优先选择第一种方法判断!下面就列举几种常见情况进行讲解。

    数学原理证明,只要学习速率足够小,代价函数一定会减小,只是学习速率太小的话,迭代的次数会增加。在具体实现时,α的取值可以通过不断尝试,不断调整,最终确定。可尝试的值:0.001,0.003,0.01,0.03,0.1,0.3,1

    单变量与多变量线性回归比较:

    比较

    正规方程法:


    (m×(n+1)的矩阵) ((n+1)×1的矩阵) ((n+1)×1的矩阵)

    由线性代数运算,可得:

    正规方程

    观察该方程,也许你会有疑问:如果X'X不可逆的时候,怎么办呢?

    首先,我们要搞明白什么时候会使它不可逆。原因:

    1.特征中,有冗余的特征向量,如:向量之间互为线性; 

    2.训练数据太少,特征太多。

    解决方法:针对第一个原因,我们可以删除冗余的特征;针对第二个,我们可以适当去掉一些不那么重要的特征,或者使用正规化方法。


    Python代码:

    # -*- coding: utf-8 -*-

    """

    Created on Sun Jan 22 14:27:15 2017

    @author: louishao

    """

    import numpyas np

    #train data

    train_x = np.mat([[1,1],[1,2],[1,3],[1,4],[1,5],[1,6],[1,7],[1,8],[1,9],[1,10],[1,11],[1,12],[1,13],[1,14]])

    train_y = np.mat([3.0,5.0,7.0,9.0,11.0,13.0,15.0,17.0,19.0,21.0,23.0,25.0,27.0,29.0])

    # transpose the train_y

    y = np.transpose(train_y)

    #transpose the train_x

    transposex = np.transpose(train_x)

    #the inverse

    invx = np.linalg.inv(transposex*train_x)

    theta = invx*transposex*y

    theta1 =float(theta[1][0])

    theta0 =float(theta[0][0])

    print "the predict function is y=%sx+%s"%(theta1,theta0)



    梯度下降和正规方程的比较:

    比较

    杂合文章,切勿传播!!!

    相关文章

      网友评论

          本文标题:线性回归

          本文链接:https://www.haomeiwen.com/subject/uinloftx.html