美文网首页大数据 爬虫Python AI Sql想法@IT·互联网
线性回归-置信区间为何在中部收窄?

线性回归-置信区间为何在中部收窄?

作者: 古代怪兽哥莫拉超进化 | 来源:发表于2024-12-04 21:55 被阅读0次

前言

不知道你是否见过这样的图:

企鹅分组.png
这是对三组数据的线性回归,来自经典数据集“帕尔默群岛的企鹅”
  • 横轴(bill_depth)表示嘴峰深度。
  • 纵轴(bill_length)表示嘴峰长度。
  • 不同颜色表示不同种类的企鹅。
    在看到这样的图时,你是否会有疑问:置信区间为什么会出现两边宽,中间窄的情况咧?
    我们从线性模型开始

线性模型

假设响应变量Y和自变量X_1, X_2, X_3...X_k存在简单线性关系(两者可以用最简单的线性模型描述):
Y = \beta_0 + \beta_1X + \varepsilon
其中\beta_0 , \beta_1回归参数(回归系数)\varepsilon误差项
根据这个式子我们可以得到预测值与自变量之间的关系:
\hat{y}_i = \hat{\beta_1}x_i +\hat{\beta_0}

最小二乘估参数

  • 定义残差e_i = y_i - \hat{y}_i

如果我们找到一条直线,使得每个预测值和实际值之间的差的平方和(或者绝对值、正负项和)最小,也就是残差平方和最小, 此时的直线最接近实际的数据,由此而来只需要计算残差平方和(residual sum of squares ,RSS),并求其取最小值时的\beta_0 , \beta_1, 即可找到拟合直线,前人已经计算过了,使RSS最小的参数估计值是:
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}
\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}

置信区间

某一个预测值\hat{y}的置信区间CI_\hat{y}(confidence interval)可以用以下的式子表达:
CI_{\hat{y}} = \hat{y} \pm t_{\alpha/2, n-2} \cdot SE_{\hat{y}}
其中某一个预测值\hat{y}的标准误差SE_\hat{y}(standard error)可以用以下的式子表达:
SE_{\hat{y}} = S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}
其中:

  • S 是残差的标准误。
  • n 是样本大小。
  • \overline{x} 是自变量的均值。
  • x 是特定的自变量。

合在一起就得到了预测值置信区间的表达式:
CI_{\hat{y}} = (\beta_0 + \beta_1x) \pm t_{\alpha/2, n-2} \cdot S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}

结论

由上式可知当x取到\overline{x}附近时,(x - \overline{x})^2逐渐变小,使得偏差部分整体变小,那么此时的置信区间就会变小,反映在图上就是中间窄、两边宽了;

还有一种直观的理解是:左侧点对右侧预测值的影响没有那么大,右侧点对左侧预测值的影响也没有那么大,但是两边的点都会为预测中间的值作出贡献,因此中间的预测值实际上是在获得了更多信息(两侧的点)后预测得到的,加上回归直线一定会过(\overline{x}, \overline{y})点,所以预测中间值的信心就很足,置信区间就窄一点。

相关文章

  • 【机器学习实践】有监督学习:线性分类、回归模型

    线性模型 为线性模型 分类和回归的区别 分类:离散回归:连续本文主要关注线性回归模型 常用线性回归模型类型 OLS...

  • 回归的分类

    一、回归可以分为以下几类 1.线性回归 2.非线性回归 3.逻辑回归 二、回归的概念 1.线性回归 可以简单理解为...

  • 逻辑回归算法原理

    一、从线性回归到逻辑回归 首先从线性回归模型出发,线性回归模型的输出值是连续型变量,值域为;逻辑回归的输出值是离散...

  • 从线性回归到逻辑回归

    线性回归 线性回归之所以称为线性回归,是由于其目标是拟合一条直线来对样例进行分类。线性回归试图学到和,预测值为:线...

  • 回归系列之线性回归的关键问题

    如上篇文章, 岭回归、Lasso回归和ElasticNet 回归都是以普通的线性回归为基础,先列举下线性回归的模型...

  • 【收藏版】机器学习:用R做线性回归的原理及代码实现

    微信公众号:生物信息学习 笔者邀请您,先思考:1 线性回归是什么?2 线性回归怎么应用? 本文解释了如何在R中运行...

  • 线性回归

    [Chapter 3 - 线性回归] 简单线性回归 形如,其中 截距为 为斜率, 和 被称为系数或者参数 计算模型...

  • Multiple Regression——多元回归

    在上一节线性回归内容中,我们提到了多元线性回归例如下图中,左边是一元线性回归,右边是二元线性回归,中间为体长观察值...

  • 机器学习之线性回归

    设线性回归的训练集为其中 , , m为训练集的样本个数,p为样本特征数。作线性回归,设其回归模型为其中均为p+1...

  • 2019-08-07

    第一章:简单的线性回归模型 简单的线性回归模型的形式为:

网友评论

    本文标题:线性回归-置信区间为何在中部收窄?

    本文链接:https://www.haomeiwen.com/subject/zuwpsjtx.html