回归分析

作者: 茉菲Molly | 来源:发表于2018-04-16 17:59 被阅读0次

关系

1. 确定性:可以用函数关系表达变量之前的关系。

2. 非确定性:相关关系,如身高和体重、血压与年龄、温度与湿度。其变量均为随机变量。

回归分析

研究相关关系的数学工具,从一个变量的值去估计另一个变量的值。

一元线性回归

回归函数

为简化问题,用 Y 的数学期望E(Y) 代替其分布函数,研究随 x 取值变化规律。

均方误差 E[(Y - μ(x))²] 最小。

随机变量 Y 的数学期望与 x 的关系函数  E(Y) = μ(x)。

当 μ(x) 为线性函数 μ(x) = a + bx 时,估计 μ(x) 的问题称为求一元线性回归问题。

用样本估计 μ(x)

做 (x, y) 散点图,粗略观察 μ(x) 的形式

一元线性回归模型

Y = a + bx + ε    ε ~ N(0, σ²),随机误差    b:回归系数

a, b 的估计

1. 令 (xi, Yi) 的联合密度函数 L 最大

2. 导出:正规方程组

3. 解得 a, b 的估计值

4. 根据估计值得到回归方程,即Y 关于 x 的经验回归方程

其图形称为回归直线,通过散点图的集合中心 (x均值,y均值)

σ² 的估计

残差:xi处,Y由回归函数计算的函数值与观察值的偏差

残差平方和

σ² = E{[Y - (a + bx)]²}

因Qe/σ² ~ χ²(n - 2)    所以:E(Qe/σ²) = n - 2

进而得到 σ² 的无偏估计量:

线性假设的显著性检验

原假设:b = 0    此时 E(Y) = μ(x) 不依赖于 x。

t 检验,拒绝域:

原假设被拒绝,回归效果显著,反之,回归效果不显著。

不显著原因:

1. 影响 Y 取值的,除 x 及随机误差外还有其他不可忽略因素;

2. Y 与 x 的关系不是现行的,而存在其他关系;

3. Y 与 x 不存在关系。

系数 b 的置信区间

系数 b 置信水平为 1 - α 的置信区间:

回归函数 μ(x) = a + bx 函数值的点估计和置信区间

μ(x0) = a + bx0 置信水平为 1 - α 的置信区间:

置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

Y 的观察值的点预测和预测区间

利用经验回归函数对因变量 Y 的新观察值进行点预测或区间预测

Y0的置信水平为 1 - α 的预测区间:

置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

可化为一元线性回归的例子

曲线方程

一元回归模型的一般形式:

线性回归模型、非线性回归模型、本质的非线性回归模型

多元线性回归

多元线性回归模型

1. 最大似然估计法得出正规方程组

2. 求出 (b0, b1, ···, bp) 列向量的最大似然估计:

3. 得 p 元经验线性回归方程

假设检验

原假设:b0 = b1 =  ··· = bp = 0

Excel 分析

1. 画散点图

2. 数据分析 - 回归 - 设定参数

3. 各参数意义:

回归统计

1) Multiple R:x和y的相关系数 r,一般在 -1 ~ 1 之间。绝对值越靠近1则相关性越强,越靠近0则相关性越弱。

2) R square:x和y的相关系数 r 的平方,表达自变量 x 解释因变量 y 变差的程度,以测定量 y 的拟合效果。

3) Adjusted R Square:调整后的 R square,说明自变量能说明因变量百分比。和B的区别在于,通常一元回归的时候看B项多,而多元回归时候看C项多。

4) 标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量。此值越小,说明拟合程度越好。

5) 观察值:用于训练回归方程的样本数据个数。

方差分析


1) Significance F:弃真率,F 显著性统计量的 P 值,越小越好,小于 α,F 检验才能通过,整体回归方程显著有效。回归分析行重点关注指标。

2) df:自由度,自上而下:

?样本数目?;样本数目 - 变量数据 - 1;样本数目 - 1

3) SS:误差平方和,自上而下:

    SSr:回归平方和,因变量的估计值对其均值的总偏差;

    SSe:残差平方和,因变量对其估计值的总偏差,数值越大,拟合效果越差;

    SSt:=  SSr + SSe,总离差平方和,因变量对其平均值的总偏差。

4) MS:均方差,自上而下:

    MSr:

    MSe:越小越好

5) F:用于线性相关的判定

回归参数


1) Coefficients - Intercept:a

2) Coefficients - X:回归系数 b    即:Y = -40544.23238 + 23.224739*X

3) 标准误差:误差值越小,表明参数的精确度越高。不常使用,原因在于:其统计信息已经包含在后述的t检验中。

4) t stat:T 检验中统计量 t 值,用于对模

型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值。经常一元回归可以看 F 检验或者回归统计基本能支撑判断,但对于多元线性回归,t 检验不可缺省。

5) P-value - X:原假设为 b = 0的,关于 b 的双边检验的 P 值,若其小于 α,则拒绝原假设,认为回归效果显著。

6) 95%下限/上限 - X:表示 b 的置信水平为 α 的置信区间,如:(11.774848, 34.674630)

(部分知识点完善中)

相关文章

  • 2020-08-22阅读十分钟收获(坚持第017天)总结中级经济

    中级经济基础第26章回归分析 回归分析与相关分析的区别和联系 回归分析分类为,线性回归和非线性回归 一元回归和多元...

  • Data Science with R in 4 Weeks -

    Regression Analysis 回归分析是非常有用的分析方法,而线性回归又是回归分析中常用的方法。有一个著...

  • (16)多重线性回归分析

    一、多重线性回归分析简介 简单线性回归分析:自变量X =1 个 多重线性回归分析:自变量X >=2 个 多元线性回...

  • 线性回归分析

    线性回归分析应该是我们最常用的分析模型了,根据身高和体重预测年龄 1.回归分析的基本概念 §回归分析假定自变量对因...

  • Python3入门机器学习 - 逻辑回归与决策边界

    logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,以胃癌病情分析为例,选择两组人群,...

  • 前言

    梳理统计学习相关的体系 进入统计机器学习模型部分,首先从最基础的从回归分析说起。 1.回归分析 回归分析大家相对来...

  • 10. 线性回归

    回归算法-线性回归分析 线性回归定义:线性回归通过一个或多个自变量与因变量之间进行建模的回归分析,其中可以为一个或...

  • 逻辑回归理论推导及如何应用于多分类

    logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济...

  • 机器学习之线性回归

    线性回归是一种回归分析技术.回归分析就是利用样本(已知数据),产生拟合方程,从而对未知数据进行预测,回归在于分...

  • 数据分析系列 9/32 | Excel进行回归分析,预测真实值

    前面学习了Excel中的相关分析,在数据分析中,相关分析和回归分析关系紧密,今天来学习下Excel中的回归分析。 ...

网友评论

    本文标题:回归分析

    本文链接:https://www.haomeiwen.com/subject/ilvskftx.html