美文网首页R
第一节 一元线性回归

第一节 一元线性回归

作者: Vector_Wan | 来源:发表于2019-06-10 21:54 被阅读0次

这一系列的笔记都是关于回归分析的,回归分析是统计很重要的一门专业课,这也是整理这个笔记的一个原因,另外一个是为了帮助小可爱呀~

这一系列的文章都是基于 人大的 回归分析,另外这些文章有很大一部分是受到了 刘理 同学的启发,在此对他表示感谢。

这一系列文章都带有很大的主观性,这就会损失一定的严谨性,如有问题欢迎私信或评论。

其实回归分析也算统计真正意义上的第一门专业课,这么说是因为统计有一个特性就是不确定性,我们之前在学习数学的时候都是确定性的(比如说函数吧),而回归分析研究的却是一种不确定性关系(这也是统计研究的特点),而且在学习过程中我还发现有很多解释都是带有很大主观性,这一度让我很不适应。

那么为什么说统计“不严谨”呢?比方说你研究一个人身高与体重的联系,这个时候,你告诉我一个人的身高 x ,我是没有办法告诉你一个确定的体重 y 的。所以只能说使用统计去找到某一个“最有可能发生的地方”,然后认为这个“概率最大”的地方就是我们要的结果。比如说我告诉你我身高是184cm,那么通过统计,你可以认为我“最有可能”体重是75kg,那么一般来说,如果作预测,你可能就会说,你“预测”我是75kg。但是实际上不一定是75kg的。

回归分析就是在研究这种不确定性的关系,其实函数也是一种关系,如果说函数是一个 x 对应了一个 y ,那么不确定关系研究的对象就是, 一个 x 对应了一个 y 的概率分布的情况。

首先我们先来看一下回归分析相关分析的联系与区别:其实这两种方法都是用来描述不确定关系的,主要区别就是相关关系研究的两个变量都是随机变量,而回归分析研究的是“因果关系”,这要求给定的自变量是确定性变量(或者说是原因要明确),不能是随机变量。其实这也是回归分析三大假设的一条,我们在后文中再来仔细谈谈这一点。

而回归分析,本质上,就是在已知原因(自变量)的情况下,把结果(因变量)可能概率最大的点给找出来。这个细节我们之后也会涉及到。

接下来我们就正式开始我们的回归分析学习吧~~

第一节主要关于一元线性回归分析

脑图

上面的脑图总结的不是很全只是一个基本的框架,还有很多的细节与证明也很重要。

一些基本的概念

首先先来看一些基本的概念:
首先需要说明的是什么叫回归函数,我们之前说了,给定一个 x,出来的其实是 y的一个概率分布。因此我们实际上要研究的,其实就是 E(y|x)(为了找到在 x 给定的条件下 y 最可能的值嘛)。所以为了研究回归,我们说 E(y|x) = f(x) 就是回归函数。

那么什么是回归方程呢?讲白了,如果回归函数的形式我们找到了,那它就变成回归方程了。比方说我们发现 f(x) = \alpha + \beta x +\gamma x^2,那么回归方程就是 E(y|x) = \alpha + \beta x +\gamma x^2。因为嫌E(y|x)太麻烦了就直接写成y = \alpha + \beta x +\gamma x^2,这就是我们熟悉的回归方程的形式了。

说到回归方程,就又多了两个概念——理论回归方程和经验回归方程。什么意思?理论回归方程,就是说我们知道了具体的形式,但是不知道系数。在回归方程中的系数都是随机变量,具体是多少我们是不能确定的,所以需要‘估计’。一般写成y = \alpha + \beta x +\gamma x^2而经验回归方程就是说,我们通过了一系列的操作,把系数给“估计”出来了,那就变成了经验回归方程。一般写成 \hat y = \hat \alpha + \hat \beta x + \hat \gamma x^2

有人问,为什么说是“经验”回归方程?没有错,通过这么一个回归函数,我们确实可以有法子,在给定我的 x 之后,把我的 y 的概率分布的最大的点确定下来。但是,能确定 y 的概率分布吗?放心吧,统计学家早就放弃这个打算了。所以实际上我们确实找到了回归系数,但是我们一定是没办法找到“正确的”系数的,因为你没有办法捕获所有的影响 y 的因素。正因如此,我们说它是“经验的”,其实暗含的意思是,我们通过了已知的,经验的数据,去“预测”回归系数,应该是这个最好。但是真正它是多少,我们永远没有办法知道。

也正是这个原因,我们认为,无论你怎么写回归函数,最终的结果都是有偏差的,这也是引入误差项的原因之一,也就正好引入了回归方程的一般形式y = f(x_1, x_2, ... , x_p ) + \epsilon

一元线性回归模型的基本假设

为了估计参数的需要,我们需要作出三个假设:

  1. 解释变量x_1, x_2, ... , x_p不是常数;
  2. 随机误差 0 均值,随机误差等方差,不相关(G-M 条件)

\left\{ \begin{array}{c} E(\epsilon_i)=0, i = 1,2,...,n \\ cov(\epsilon_i\epsilon_j)=\left\{ \begin{array}{c}\delta^2,i=j\\ 0,i\neq j\end{array} i ,j = 1,2,... , n \right. \\ \end{array} \right.

  1. 随机误差的正态分布假定:
    \left\{ \begin{array}{c}\ \epsilon_i \sim N(0,\sigma^2),i = 1,2,... , n\\ \epsilon _1, \epsilon _2, ..., \epsilon _n 相互独立\end{array} \right.

通常便于数学上的处理还要求 n > p

我们先来解释一下这几个假设:第一个假设就是说,“原因要明确”,第二个假设是为什么捏?我们来看一下下面的式子:
y = f(x) + \epsilon,E(y|x) = E(f(x)|x)+E(\epsilon | x) = f(x)

我们在上面的推导中使用了E(\epsilon ) = 0这个假设,如果没有这个假设,那我们就完全无法估计参数了,只能停留在理论回归方程那里,那么我们做回归分析就没有意义了。

有人会问,那如果E(\epsilon ) \neq 0怎么办,一般是没有关系的,比如说E(\epsilon )是一个常数 a ,那么它可以被“吸收”进f(x)里。也就是说,设g(x) = f(x)+a,然后认为g(x)是回归函数即可。所以这个条件不满足调整一下就好。

第二个假设的第二条是为什么呐?这里的我们的假设的意思相当于,允许有一定的方差,但是误差项之间协方差必须为0,且误差项本身的方差必须在每一个点都相等。一方面,如果几个数据点之间有关系了是什么一个情况?一个经典的例子就是多重共线性。我们之后的笔记中会具体的说明有关多重共线性的内容。当然,另一方面,如果每一个点的方差不一样怎么办?这个我们有专门的说法叫异方差性。出现了这种情况的话,统计学家也有自己的方法去解决它,之后的笔记里会涉及到。

第三个假设也很好理解,如果残差项之间不是无关的,那么出现的问题,上一段已经说过了。为什么要假定为“正态分布”呢?除去正态分布的满足的比较好的一些性质以外,还有一个考虑是,它让回归“有办法”能够捕获到“概率最大”的点

一元线性回归的参数估计

一元线性回归的基本形式是:
y_i = \beta_0+\beta_1x_i + \epsilon_i, i = 1,2,...,n
根据我们的假设我们就可以得到一个结论:
y_i \sim N(\beta_0 + \beta_1x_i, \sigma^2)
这是通过两边取期望和方差看出来的。

我们之前说过,回归函数就是用来预测非确定性关系的。但是你作为一个函数,总不能连系数都不知道吧?但是这些参数全是随机变量,这也是没法确定,我们只能根据样本去估计,所以才有了估计系数的说法。对于一元线性回归,估计系数自然就是估计\beta_0\beta_1啦。估计参数的方法有很多,不同的准则估计的参数值是不同的,我们主要研究下面的两种估计方法。这两种估计方法估计的参数有很多好的性质。

相关文章

  • 2020-02-14

    线性回归:线性回归分为一元线性回归和多元线性回归,一元线性回归用一条直线描述数据之间的关系,多元回归是用一条曲线描...

  • Matlab一元/多元回归(后续会有更新)

    一元线性回归&一元非线性回归 多元回归/逐步回归 多元回归 先画散点图,看有没有线性性质,再决定能不能用多元线性回...

  • 一元线性回归方程

    目标:写清楚一元线性回归分析的全部过程。 一元线性回归分析步骤: 确定变量variable:independent...

  • 数学建模系列笔记2:回归和时间序列

    数学建模 @[toc] 3-1-1 一元线性回归 一般,假设 若 称为一元正态线性回归模型 回归分析要解决的主要问...

  • 机器学习

    1.线性回归 1.1一元线性回归 y=a+bx 1.2多元线性回归 y=a+b1x1+b2x2+...+bnxn ...

  • 机器学习第4天:线性回归及梯度下降

    联系我:ke.zb@qq.com我的技术博客:明天依旧可好-CSDN 一、简单线性回归(即一元线性回归) 线性回归...

  • 多元线性回归

    前言 一元线性回归只是让我们好理解回归这个概念。在实际中特征很少说只有一个。所有就有多元线性回归。 概念 与一元线...

  • 2020-08-13--线性回归01

    线性回归算法简介 解决回归问题 思想简单,容易实现 许多强大的非线性模型的基础 结果具有很好的 线性回归分为一元线...

  • Multiple Regression——多元回归

    在上一节线性回归内容中,我们提到了多元线性回归例如下图中,左边是一元线性回归,右边是二元线性回归,中间为体长观察值...

  • 2020-08-19

    线性回归模型 一元线性回归模型 “一元”就是指单个特征。 通过预测房价的问题作为例子。 将训练集中的数据用图像的形...

网友评论

    本文标题:第一节 一元线性回归

    本文链接:https://www.haomeiwen.com/subject/kqjktctx.html