问题1
残差是啥意思?
问题2
自由度是啥意思?就是样本量减2吗?
问题3
假设检验的时候是假设β1是等于0,如果假设β1不等于0,应该怎么求检验?
问题4
什么是z分布,什么是t分布?有什么区别?
问题5
(1-pt(6.740,df=model$df.residual))*2
这个公式啥意思?为啥乘以2?
简单线性回归
Intercept是截距,X是回归系数,0.903,显著不为0,即身高没增加1个单位,体重便增长0.903个单位。
weight和height的关系,用最小二乘法算出来的线性回归方程为:y=-86.318+0.903x。
加上方程图像 模型summaryabline(model,col="red")
给散点图加上模型的线性回归方程的函数图像
根据上图,可以看出,R的平方0.1487,表明模型可以解释体重14.87%的方差,它也是实际和预测值之间的相关系数。
Residual standard error 18.63是随机误差项,RSE,残差平方和除以自由度开根号。
RSEon 260,是指残差自由度260。
F-statistic: 45.43 on 1 and 260 DF,F检验
p-value: 1.018e-10,P值。
value,6.740,就是t值。
假设检验:身高与体重是否呈线性关系?
假设β1是等于0,即y=kx+b中的k等于0,身高和体重没有线性关系。
三种方法区间估计法
先求t值,t=qt(P值),需要95%的置信区间,第一个值设置0.05/2=0.025
qt(0.025,df=model$df.residual)
[1] -1.96913
t = -qt(0.025,df=model$df.residual) #负号是求相反数,得正值
求得区间估计:
c(0.903-t0.134,0.903+t0.134)
[1] 0.6391366 1.1668634
没有包含0,可以拒绝原假设,身高和体重是有线性关系的。
P值法
p值法是默认身高服从正态分布的,但正态分布的样本量太少,因此使用t分布,而不使用z分布。t分布的残差自由度是n-2。
P值法公式先把β1标准化,再减去假设值(β=0),再除以样本标准误差(SE)
用pt就可以不用查表就知道是否小于0.05。
(1-pt(6.740,df=model$df.residual))*2 ## 这个公式啥意思?为啥乘以2?
[1] 1.016875e-10
计算出p值小于0.05,可以拒绝原假设,认为身高和体重有线性关系。
F检验下节课。
网友评论