回归分析

作者: 茉菲Molly | 来源:发表于2018-04-16 17:59 被阅读0次

    关系

    1. 确定性:可以用函数关系表达变量之前的关系。

    2. 非确定性:相关关系,如身高和体重、血压与年龄、温度与湿度。其变量均为随机变量。

    回归分析

    研究相关关系的数学工具,从一个变量的值去估计另一个变量的值。

    一元线性回归

    回归函数

    为简化问题,用 Y 的数学期望E(Y) 代替其分布函数,研究随 x 取值变化规律。

    均方误差 E[(Y - μ(x))²] 最小。

    随机变量 Y 的数学期望与 x 的关系函数  E(Y) = μ(x)。

    当 μ(x) 为线性函数 μ(x) = a + bx 时,估计 μ(x) 的问题称为求一元线性回归问题。

    用样本估计 μ(x)

    做 (x, y) 散点图,粗略观察 μ(x) 的形式

    一元线性回归模型

    Y = a + bx + ε    ε ~ N(0, σ²),随机误差    b:回归系数

    a, b 的估计

    1. 令 (xi, Yi) 的联合密度函数 L 最大

    2. 导出:正规方程组

    3. 解得 a, b 的估计值

    4. 根据估计值得到回归方程,即Y 关于 x 的经验回归方程

    其图形称为回归直线,通过散点图的集合中心 (x均值,y均值)

    σ² 的估计

    残差:xi处,Y由回归函数计算的函数值与观察值的偏差

    残差平方和

    σ² = E{[Y - (a + bx)]²}

    因Qe/σ² ~ χ²(n - 2)    所以:E(Qe/σ²) = n - 2

    进而得到 σ² 的无偏估计量:

    线性假设的显著性检验

    原假设:b = 0    此时 E(Y) = μ(x) 不依赖于 x。

    t 检验,拒绝域:

    原假设被拒绝,回归效果显著,反之,回归效果不显著。

    不显著原因:

    1. 影响 Y 取值的,除 x 及随机误差外还有其他不可忽略因素;

    2. Y 与 x 的关系不是现行的,而存在其他关系;

    3. Y 与 x 不存在关系。

    系数 b 的置信区间

    系数 b 置信水平为 1 - α 的置信区间:

    回归函数 μ(x) = a + bx 函数值的点估计和置信区间

    μ(x0) = a + bx0 置信水平为 1 - α 的置信区间:

    置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

    Y 的观察值的点预测和预测区间

    利用经验回归函数对因变量 Y 的新观察值进行点预测或区间预测

    Y0的置信水平为 1 - α 的预测区间:

    置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短

    可化为一元线性回归的例子

    曲线方程

    一元回归模型的一般形式:

    线性回归模型、非线性回归模型、本质的非线性回归模型

    多元线性回归

    多元线性回归模型

    1. 最大似然估计法得出正规方程组

    2. 求出 (b0, b1, ···, bp) 列向量的最大似然估计:

    3. 得 p 元经验线性回归方程

    假设检验

    原假设:b0 = b1 =  ··· = bp = 0

    Excel 分析

    1. 画散点图

    2. 数据分析 - 回归 - 设定参数

    3. 各参数意义:

    回归统计

    1) Multiple R:x和y的相关系数 r,一般在 -1 ~ 1 之间。绝对值越靠近1则相关性越强,越靠近0则相关性越弱。

    2) R square:x和y的相关系数 r 的平方,表达自变量 x 解释因变量 y 变差的程度,以测定量 y 的拟合效果。

    3) Adjusted R Square:调整后的 R square,说明自变量能说明因变量百分比。和B的区别在于,通常一元回归的时候看B项多,而多元回归时候看C项多。

    4) 标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量。此值越小,说明拟合程度越好。

    5) 观察值:用于训练回归方程的样本数据个数。

    方差分析


    1) Significance F:弃真率,F 显著性统计量的 P 值,越小越好,小于 α,F 检验才能通过,整体回归方程显著有效。回归分析行重点关注指标。

    2) df:自由度,自上而下:

    ?样本数目?;样本数目 - 变量数据 - 1;样本数目 - 1

    3) SS:误差平方和,自上而下:

        SSr:回归平方和,因变量的估计值对其均值的总偏差;

        SSe:残差平方和,因变量对其估计值的总偏差,数值越大,拟合效果越差;

        SSt:=  SSr + SSe,总离差平方和,因变量对其平均值的总偏差。

    4) MS:均方差,自上而下:

        MSr:

        MSe:越小越好

    5) F:用于线性相关的判定

    回归参数


    1) Coefficients - Intercept:a

    2) Coefficients - X:回归系数 b    即:Y = -40544.23238 + 23.224739*X

    3) 标准误差:误差值越小,表明参数的精确度越高。不常使用,原因在于:其统计信息已经包含在后述的t检验中。

    4) t stat:T 检验中统计量 t 值,用于对模

    型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值。经常一元回归可以看 F 检验或者回归统计基本能支撑判断,但对于多元线性回归,t 检验不可缺省。

    5) P-value - X:原假设为 b = 0的,关于 b 的双边检验的 P 值,若其小于 α,则拒绝原假设,认为回归效果显著。

    6) 95%下限/上限 - X:表示 b 的置信水平为 α 的置信区间,如:(11.774848, 34.674630)

    (部分知识点完善中)

    相关文章

      网友评论

        本文标题:回归分析

        本文链接:https://www.haomeiwen.com/subject/ilvskftx.html