美文网首页
线性回归

线性回归

作者: 放开那个BUG | 来源:发表于2018-08-22 21:35 被阅读12次

    写在最前面的几句话,我们下面所有的问题的符号规约如下:

    • m代表训练集中实例的数量
    • x代表输入变量
    • y代表目标变量
    • (x, y)代表训练集中的实例
    • (x^{(i)}, y^{(i)})代表第i个实例
    • x_i表示第i个变量
    • h代表学习算法的解决方案或函数,也成为假设(hypothesis)
    • J是代价函数

    1、单变量线性回归

    单变量的线性回归比较简单,一般表达式为h_\theta(x) = \theta_0 + \theta_1x,现在我们来求代价函数。我们一般用平方差损失函数,即(h_\theta(x^{(i)}) - y^{(i)})^2,因为我们求的是平均损失,而所有的样本个数为m,那么J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,后面为了方便计算,在m旁边乘了个2,所以,原公式变为J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,我们的目标是让损失函数最小。
    一个经典的优化方法是梯度下降法(Gradient Descent)。从公式可以看出,我们需要找到一个参数\theta_0\theta_1使得损失函数最小。现在所有的xy是已知的,所以J(\theta_0,\theta_1)是关于\theta_0\theta_1的函数(搞清楚这点很重要)。
    现在我们考虑一个简单的情况,假设\theta_0为0。那么损失函数变为J(\theta_1),如果我们对和\theta_1取任意的值,最后可以组成如下图所示的图形

    可以看出当 J(\theta_1)是关于\theta_1的函数时,我们需要取到一个\theta_1使得J(\theta_1)最小。如果加上J(\theta_0),对J(\theta_0),J(\theta_1)任意取值,最后可以形成如图所示的图形

    横轴为J(\theta_0),J(\theta_1),数轴为J(\theta_0,\theta_1)所谓的梯度下降就是不断迭代J(\theta_0),J(\theta_1)使得损失函数最小。当然,一般的函数图像不会像这样的,一般都是这样像丘壑一样高低不平

    梯度下降法(Gradient Descent)如下:首先我们需要对\theta_0,\theta_1随机初始一个值,对应上图就是随机从图像的一点出发,然后不断更新\theta_0,\theta_1。如图:

    梯度下降这事怎么解释呢?首先我们很疑惑的是,为什么要减去导数?其实,我们只不过是沿着梯度的方向变化而已而梯度的方向就是函数对各个变量偏导数的方向,我们需要这个方向,所以导数保留了,然后我们为什么乘\alpha,就是因为我们可以任意变换在梯度方向的变化量。总而言之最重要的一点是,梯度的方向!!!方向!!!
    我们还是以最简单的情况来看,即\theta_0 = 0

    我们每次都J(\theta_1)求导,那么沿着这个方向,我们不断变化然后取到最小值。
    关于单变量的线性回归,我们可以求出他们需要更新值是:

    推导很简单,直接将h_\theta(x)展开成h_\theta(x) = \theta_0 + \theta_1x,然后求偏导即可。

    2、多变量线性回归

    讲完了单变量线性回归,多变量就好讲了。多变量只不过多了很多x_i的变量,它的目标函数变成了h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n。但是为了公式简洁(数学家就是强迫症),我们假设x_0 = 1,则公式转化为h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n,然后代价函数是J(\theta_0,\theta_1,...,\theta_n) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,梯度下降算法为:


    即:

    求导之后得到(j是第j个变量):

    例如(其他的就不写了,这只是举个栗子):


    3、一些基础杂点

    3.1特征缩放

    为什么需要特征缩放。因为在多维问题中,如果每一个变量的取值范围都差不多,那么梯度下降很快。但是如果一个变量的取值为0-5,另一个为0-2000,那么分别以这两个参数为横坐标,绘制损失函数的等高线图,可以看出图像很扁,梯度下降需要很多次迭代才能收敛。


    如果将所有特征缩放到-1到1之间(很多缩放方法,比如最大最小缩放之类的)


    可以看出图像并没有那么扁,梯度下降很好收敛。

    3.2正规方程(最小二乘法)

    损失函数的另一种解法是正规方程,它能一步得到解。这种解法是很直观的数学解法,但是在特征维度很多的时候,在工程上没有任何优势,所以现在都是用梯度下降。


    这是代数形式的正规方程,当时吴恩达老师说如果求每个\theta的偏导会很麻烦,所以用了矩阵的形式表示,然后解出\theta\theta = (X^TX)^{-1}X^TY,这里\theta, X, Y都是向量。这种解法作为了解了,毕竟现在都是梯度下降的天下了。

    相关文章

      网友评论

          本文标题:线性回归

          本文链接:https://www.haomeiwen.com/subject/xskyiftx.html