基础知识:
- 因变量:被预测的变量(y)
- 自变量:预测因变量值的一个或者多个变量(x)
- 只包括一个自变量和一个因变量,二者之间的关系可以用一条直线近似表示,这种回归分析被称为简单线性回归
简单线性回归的估计步骤:
image.png
估计的简单线性回归方程:
image.png
最小二乘法
最小二乘法准则:
image.png
估计的回归方程的斜率和Y轴截距求解:
image.png
判定系数:提供了一个拟合优度的度量
误差平方和(SSE):样本观测值与预测值的离差平方和
总的平方和(SST):在没有任何相关变量信息的情况下,以样本均值作为估计值所产生的的误差度量
回归平方和(SSR):度量回归线上的预测值与期望值的偏离程度
三者之间的关系:
判定系数:
image.png
- 𝑟^2理解为总平方和中能被估计的回归方程解释的百分比。
相关系数:
显著性检验
image.pngt检验
关于线性回归方程b1的抽样分布:
image.png
b1的估计标准差为:
image.png
简单线性回归显著性的t检验:
image.png
β1的置信区间:
简单线性回归显著性的F检验:
ANOVA(方差分析)表:
image.png
- 每一个方差分析表中,总平方和是回归平方和与误差平方和之和,同时,总平方和的自由度是回归平方和与误差平方和的自由度之和;
- 回归分析能识别变量之间如何相互联系的,不能用来作为变量之间存在因果关系的根据。
关于显著性检验解释的注意点:
- 我们利用估计的回归方程对于x的样本观测值范围以内的x值进行预测,应该是完全有把握的。但是超过这一范围就需要十分谨慎
区间估计
置信区间:对于x的一个给定值,y的平均值的区间估计
-
当x为平均值是,可得到y的平均值最佳或最精确的估计量,x偏离平均值越远,y的平均值的置信区间就变得越宽:
image.png
预测区间:对于x的一个给定值,对应y的一个新的观测值,也即对y的一个个别值进行预测的区间估计
-
当自变量的值x越接近平均值,置信区间和预测区间就越精确
image.png
网友评论