美文网首页
机器学习之旅---线性回归模型

机器学习之旅---线性回归模型

作者: Caesar_6953 | 来源:发表于2019-11-28 14:13 被阅读0次

2019/11/19 Caesar

前言

  回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系,如果观测变量是离散的,则称其为分类Classification;如果观测变量是连续的,则称其为回归Regression。
  线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的。
  在回归分析中,如果只包括一个自变量和一个因变量,且二者关系可用一条直线近似表示,称为一元线性回归分析;如果回归分析中包括两个或两个以上的自变量,且因变量和自变量是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线,对于三维空间线性是一个平面,对于多维空间线性是一个超平面。

1. 情景代入

下面我们可以用一个简单的例子来直观理解线性回归模型。

x=房子面积,y=房子价钱.png
从图像中我们可以发现房子价和房子面积之间,存在着一定的线性关系,似乎是在沿着某条直线上下随机波动,我们甚至可以找到一条直线串联大部分的点。
image.png
在二维平面中,这条直线的方程就是 y = wx + b,假设这条就是我们最佳拟合的直线 y = wx + b。对于每个样本点分别代入即可。为了防止正误差值和负误差值相抵的情况,使用绝对值来表示距离:
绝对值.PNG
但是在线性回归中,我们需要找极值,需要函数可导,而
捕获.PNG
不是一个处处可导的函数,因此很自然地想到可以使用:
捕获.PNG
对于所有样本则有:
捕获.PNG
那么,问题来了,如何得到 w 和 b 呢?显然?关键在于如何衡量 f(x) 与 y 之间的差别,均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,.而这种基于均方误差最小化进行模型求解的方法称为“最小二乘法”。在线性回归中,最小 乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。接下来介绍以下“最小二乘法”。

2. 最小二乘法

2.1 最小二乘法引入

还是刚才的房子的栗子,首先,把得到的值画在笛卡尔坐标系中,分别记作 yi :

image.png
其次,把要猜测的真实值用平行于横轴的直线来表示(因为是猜测的,所以用虚线来画),记作 y :
image.png
每个点都向 y 做垂线,垂线的长度就是 | y - yi | ,也可以理解为预测值和真实值之间的误差:
image.png
因为误差是长度,还要取绝对值,计算起来麻烦,就干脆用平方来代表误差:
image.png
总的误差的平方就是:
image.png
法国数学家,阿德里安-馬里·勒讓德提出让总的误差的平方最小的 y 就是真值,这是基于,如果误差是随机的,应该围绕真值上下波动。这就是最小二乘法,即:
image.png
这是一个二次函数,对其求导,导数为0的时候取得最小值:
image.png
可得:
image.png

2.2 线性回归中的应用

我们是要找到 a 和 b ,使得损失函数:

损失函数.PNG
尽可能的小。这里,将简单线性问题转为最优化问题。下面对函数的各个位置分量求导,导数为0的地方就是极值:
J(a, b) 对 b 进行求导:
.PNG
然后mb提到等号前面,两边同时除以m,等号右面的每一项相当于均值。
.PNG
此时将对 b 进行求导得到的结果
.PNG
代入上式中,得到:
.PNG
将上式进行整理,得到
.PNG
              转载于公众号:数据科学家联盟
将上式继续进行整理:
.PNG
              转载于公众号:数据科学家联盟
这样在实现的时候简单很多。最终我们通过最小二乘法得到a、b的表达式:
.PNG

3. 评估模型

3.1 损失函数

损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。在线性回归中,我们通常使用平方损失函数:

image.PNG
另外还有一些常用的损失函数:
image.png
损失函数是针对于单个样本的,但是一个训练数据集中存在N个样本,N个样本给出N个损失,如何进行选择呢?

3.2 风险函数

期望风险是损失函数的期望,用来表达理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失。又叫期望损失/风险函数。

image.png
              转载于公众号:数据科学家联盟

3.3 经验风险

模型f(X)关于训练数据集的平均损失,称为经验风险或经验损失。

经验风险.png
              转载于公众号:数据科学家联盟
经验风险是对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(X)对训练集的拟合程度越好,但是对于未知的样本效果怎么样呢?我们知道未知的样本数据(<X,Y>)的数量是不容易确定的,所以就没有办法用所有样本损失函数的平均值的最小化这个方法,那么怎么来衡量这个模型对所有的样本(包含未知的样本和已知的训练样本)预测能力呢?

3.4 期望风险

熟悉概率论的很容易就想到了用期望。没错!即假设X和Y服从联合分布P(X,Y).那么期望风险就可以表示为:

期望风险.png
              转载于公众号:数据科学家联盟

3.5 总结

3.5.1 损失函数、经验风险、期望风险

损失函数:针对单个样本,衡量预测值与真实值的差异程度。损失函数是理解经验风险和期望风险的基础。
经验风险:经验风险是局部的,基于训练集所有样本点,损失函数最小化的。经验风险函数是现实的,可求的。
期望风险:期望风险是全局的,基于所有样本点,损失函数最小化的。期望风险函数是理想化的,不可求的。

3.5.2

我们平时所说的损失函数一定是数据集维度的,所以是经验风险或期望风险的一种。

4. 最优化

4.1 凸优化

确定损失函数是完成机器学习算法关键的一步,一旦它确定了,剩下的就是求解最优化问题,这在数学上一般有标准的解决方案。
现将回归预测函数带入损失函数的定义,可以得到如下损失函数:

image.png
可以证明这个函数是凸函数。凸优化问题的局部最优解就是全局最优解,凸优化问题的研究较为成熟,当一个具体被归为一个凸优化问题,基本可以确定该问题是可被求解的。

4.2 梯度下降

得到对权重的梯度之后,可以用梯度下降进行更新。也可以直接寻找梯度为0的点来解决此问题,求解线性方程组,这就是经典的最小二乘法。
梯度下降算法的数学公式:

image.png
此公式的意义是:J是关于Θ的一个函数,我们当前所处的位置为Θ0点,要从这个点走到J的最小值点,也就是山底。首先我们先确定前进的方向,也就是梯度的反向,然后走一段距离的步长,也就是α,走完这个段步长,就到达了Θ1这个点!
  • α是什么含义?
    α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离,以保证不要步子跨的太大扯着蛋,哈哈,其实就是不要走太快,错过了最低点。同时也要保证不要走的太慢,导致太阳下山了,还没有走到山下。所以α的选择在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点!
  • 为什么要梯度要乘以一个负号?
    梯度前加一个负号,就意味着朝着梯度相反的方向前进!我们在前文提到,梯度的方向实际就是函数在此点上升最快的方向!而我们需要朝着下降最快的方向走,自然就是负的梯度的方向,所以此处需要加上负号。

5. 过拟合与欠拟合

后续补充

6. 正则化

后续补充

相关文章

  • 2019-10-29

    Day2 简单线性回归模型 机器学习入门--简单线性回归机器学习算法之线性回归算法 导入库matplotlib 绘...

  • Task4模型调参

    学习目标 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程 内容介绍 线性回归模型:线性回归对于特征的要...

  • 线性回归模型

    参考:1.使用Python进行线性回归2.python机器学习:多元线性回归3.线性回归概念 线性回归模型是线性模...

  • 机器学习之旅---线性回归模型

    2019/11/19 Caesar 前言   回归算法是一种有监督学习算法,用来建立自变量X和观测变...

  • Python机器学习基础教程学习笔记(5)——线性模型(回归)

    Python机器学习基础教程学习笔记(5)——线性模型(回归) 1 线性回归处理wave数据集 1.1 wave数...

  • 对逻辑回归的看法

    在机器学习中,线性回归与逻辑回归的形式简单,却蕴含着一些重要思想;逻辑回归模型也是线性回归模型的非线性高级映射,具...

  • [回归] 线性回归 Linear Regression

    线性回归是统计/机器学习中最基础的一个模型,在线性回归的基础上可以拓展出之后相当多的模型,例如逻辑回归。 线性回归...

  • 机器学习实践系列1——线性回归

    摘要:本文结合实际案例,介绍机器学习的线性回归模型,包括一元线性回归和多元线性回归,以及模型的评估。案例展示用Py...

  • 算法工程师知识树 持续更新

    机器学习算法 监督学习分类模型LRSVM决策树NB回归模型线性回归 最小二乘融合模型baggingRFboosti...

  • 3.1.1.1 线性模型

    线性模型 (Linear Model) : 原理 《机器学习》周志华 3.1 线性回归 最小均方误差(square...

网友评论

      本文标题:机器学习之旅---线性回归模型

      本文链接:https://www.haomeiwen.com/subject/mojmwctx.html