关系
1. 确定性:可以用函数关系表达变量之前的关系。
2. 非确定性:相关关系,如身高和体重、血压与年龄、温度与湿度。其变量均为随机变量。
回归分析
研究相关关系的数学工具,从一个变量的值去估计另一个变量的值。
一元线性回归
回归函数
为简化问题,用 Y 的数学期望E(Y) 代替其分布函数,研究随 x 取值变化规律。
均方误差 E[(Y - μ(x))²] 最小。
随机变量 Y 的数学期望与 x 的关系函数 E(Y) = μ(x)。
当 μ(x) 为线性函数 μ(x) = a + bx 时,估计 μ(x) 的问题称为求一元线性回归问题。
用样本估计 μ(x)
做 (x, y) 散点图,粗略观察 μ(x) 的形式
一元线性回归模型
Y = a + bx + ε ε ~ N(0, σ²),随机误差 b:回归系数
a, b 的估计
1. 令 (xi, Yi) 的联合密度函数 L 最大
2. 导出:正规方程组
3. 解得 a, b 的估计值
4. 根据估计值得到回归方程,即Y 关于 x 的经验回归方程:
或
其图形称为回归直线,通过散点图的集合中心 (x均值,y均值)
σ² 的估计
残差:xi处,Y由回归函数计算的函数值与观察值的偏差
残差平方和:
σ² = E{[Y - (a + bx)]²}
因Qe/σ² ~ χ²(n - 2) 所以:E(Qe/σ²) = n - 2
进而得到 σ² 的无偏估计量:
线性假设的显著性检验
原假设:b = 0 此时 E(Y) = μ(x) 不依赖于 x。
t 检验,拒绝域:
原假设被拒绝,回归效果显著,反之,回归效果不显著。
不显著原因:
1. 影响 Y 取值的,除 x 及随机误差外还有其他不可忽略因素;
2. Y 与 x 的关系不是现行的,而存在其他关系;
3. Y 与 x 不存在关系。
系数 b 的置信区间
系数 b 置信水平为 1 - α 的置信区间:
回归函数 μ(x) = a + bx 函数值的点估计和置信区间
μ(x0) = a + bx0 置信水平为 1 - α 的置信区间:
置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短
Y 的观察值的点预测和预测区间
利用经验回归函数对因变量 Y 的新观察值进行点预测或区间预测
Y0的置信水平为 1 - α 的预测区间:
置信区间长度随 | x0 - x均值 | 的增加而增加,当x0 = x均值时为最短
可化为一元线性回归的例子
曲线方程
一元回归模型的一般形式:
线性回归模型、非线性回归模型、本质的非线性回归模型
多元线性回归
多元线性回归模型
1. 最大似然估计法得出正规方程组
2. 求出 (b0, b1, ···, bp) 列向量的最大似然估计:
3. 得 p 元经验线性回归方程:
假设检验
原假设:b0 = b1 = ··· = bp = 0
Excel 分析
1. 画散点图
2. 数据分析 - 回归 - 设定参数
3. 各参数意义:
回归统计
1) Multiple R:x和y的相关系数 r,一般在 -1 ~ 1 之间。绝对值越靠近1则相关性越强,越靠近0则相关性越弱。
2) R square:x和y的相关系数 r 的平方,表达自变量 x 解释因变量 y 变差的程度,以测定量 y 的拟合效果。
3) Adjusted R Square:调整后的 R square,说明自变量能说明因变量百分比。和B的区别在于,通常一元回归的时候看B项多,而多元回归时候看C项多。
4) 标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量。此值越小,说明拟合程度越好。
5) 观察值:用于训练回归方程的样本数据个数。
方差分析
1) Significance F:弃真率,F 显著性统计量的 P 值,越小越好,小于 α,F 检验才能通过,整体回归方程显著有效。回归分析行重点关注指标。
2) df:自由度,自上而下:
?样本数目?;样本数目 - 变量数据 - 1;样本数目 - 1
3) SS:误差平方和,自上而下:
SSr:回归平方和,因变量的估计值对其均值的总偏差;
SSe:残差平方和,因变量对其估计值的总偏差,数值越大,拟合效果越差;
SSt:= SSr + SSe,总离差平方和,因变量对其平均值的总偏差。
4) MS:均方差,自上而下:
MSr:
MSe:越小越好
5) F:用于线性相关的判定
回归参数
1) Coefficients - Intercept:a
2) Coefficients - X:回归系数 b 即:Y = -40544.23238 + 23.224739*X
3) 标准误差:误差值越小,表明参数的精确度越高。不常使用,原因在于:其统计信息已经包含在后述的t检验中。
4) t stat:T 检验中统计量 t 值,用于对模
型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值。经常一元回归可以看 F 检验或者回归统计基本能支撑判断,但对于多元线性回归,t 检验不可缺省。
5) P-value - X:原假设为 b = 0的,关于 b 的双边检验的 P 值,若其小于 α,则拒绝原假设,认为回归效果显著。
6) 95%下限/上限 - X:表示 b 的置信水平为 α 的置信区间,如:(11.774848, 34.674630)
(部分知识点完善中)
网友评论