R语言回归分析学习笔记-0704

作者: 数据斯基 | 来源:发表于2021-07-04 22:49 被阅读0次

学习课程：【R语言入门】回归分析手把手教你操作

问题1

残差是啥意思？

问题2

自由度是啥意思？就是样本量减2吗？

问题3

假设检验的时候是假设β1是等于0，如果假设β1不等于0，应该怎么求检验？

问题4

什么是z分布，什么是t分布？有什么区别？

问题5

(1-pt(6.740,df=model$df.residual))*2

这个公式啥意思？为啥乘以2？

简单线性回归

最小二乘法介绍

Intercept是截距，X是回归系数，0.903，显著不为0，即身高没增加1个单位，体重便增长0.903个单位。
weight和height的关系，用最小二乘法算出来的线性回归方程为：y=-86.318+0.903x。

abline(model,col="red")
给散点图加上模型的线性回归方程的函数图像

加上方程图像

模型summary

根据上图，可以看出，R的平方0.1487，表明模型可以解释体重14.87%的方差，它也是实际和预测值之间的相关系数。

Residual standard error 18.63是随机误差项，RSE，残差平方和除以自由度开根号。

RSE

on 260，是指残差自由度260。

F-statistic: 45.43 on 1 and 260 DF，F检验
p-value: 1.018e-10，P值。
value，6.740，就是t值。

假设检验：身高与体重是否呈线性关系？

假设β1是等于0，即y=kx+b中的k等于0，身高和体重没有线性关系。

三种方法

区间估计法

先求t值，t=qt（P值），需要95%的置信区间，第一个值设置0.05/2=0.025

qt(0.025,df=model$df.residual)
[1] -1.96913
t = -qt(0.025,df=model$df.residual) #负号是求相反数，得正值

求得区间估计：

c(0.903-t0.134,0.903+t0.134)
[1] 0.6391366 1.1668634

没有包含0，可以拒绝原假设，身高和体重是有线性关系的。

P值法

p值法是默认身高服从正态分布的，但正态分布的样本量太少，因此使用t分布，而不使用z分布。t分布的残差自由度是n-2。

P值法公式

先把β1标准化，再减去假设值（β=0），再除以样本标准误差（SE）

用pt就可以不用查表就知道是否小于0.05。

(1-pt(6.740,df=model$df.residual))*2 ## 这个公式啥意思？为啥乘以2？
[1] 1.016875e-10

计算出p值小于0.05，可以拒绝原假设，认为身高和体重有线性关系。

F检验下节课。

网友评论

本文标题：R语言回归分析学习笔记-0704

本文链接：https://www.haomeiwen.com/subject/xeumultx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！