美文网首页
R语言回归分析学习笔记-0704

R语言回归分析学习笔记-0704

作者: 数据斯基 | 来源:发表于2021-07-04 22:49 被阅读0次

    学习课程:【R语言入门】回归分析 手把手教你操作

    问题1

    残差是啥意思?

    问题2

    自由度是啥意思?就是样本量减2吗?

    问题3

    假设检验的时候是假设β1是等于0,如果假设β1不等于0,应该怎么求检验?

    问题4

    什么是z分布,什么是t分布?有什么区别?

    问题5

    (1-pt(6.740,df=model$df.residual))*2

    这个公式啥意思?为啥乘以2?

    简单线性回归

    最小二乘法介绍

    Intercept是截距,X是回归系数,0.903,显著不为0,即身高没增加1个单位,体重便增长0.903个单位。
    weight和height的关系,用最小二乘法算出来的线性回归方程为:y=-86.318+0.903x。

    abline(model,col="red")
    给散点图加上模型的线性回归方程的函数图像

    加上方程图像 模型summary

    根据上图,可以看出,R的平方0.1487,表明模型可以解释体重14.87%的方差,它也是实际和预测值之间的相关系数。

    Residual standard error 18.63是随机误差项,RSE,残差平方和除以自由度开根号。

    RSE

    on 260,是指残差自由度260。

    F-statistic: 45.43 on 1 and 260 DF,F检验
    p-value: 1.018e-10,P值。
    value,6.740,就是t值。

    假设检验:身高与体重是否呈线性关系?

    假设β1是等于0,即y=kx+b中的k等于0,身高和体重没有线性关系。

    三种方法

    区间估计法

    先求t值,t=qt(P值),需要95%的置信区间,第一个值设置0.05/2=0.025

    qt(0.025,df=model$df.residual)
    [1] -1.96913
    t = -qt(0.025,df=model$df.residual) #负号是求相反数,得正值

    求得区间估计:

    c(0.903-t0.134,0.903+t0.134)
    [1] 0.6391366 1.1668634

    没有包含0,可以拒绝原假设,身高和体重是有线性关系的。

    P值法

    p值法是默认身高服从正态分布的,但正态分布的样本量太少,因此使用t分布,而不使用z分布。t分布的残差自由度是n-2。

    P值法公式

    先把β1标准化,再减去假设值(β=0),再除以样本标准误差(SE)

    用pt就可以不用查表就知道是否小于0.05。

    (1-pt(6.740,df=model$df.residual))*2 ## 这个公式啥意思?为啥乘以2?
    [1] 1.016875e-10

    计算出p值小于0.05,可以拒绝原假设,认为身高和体重有线性关系。

    F检验下节课。

    相关文章

      网友评论

          本文标题:R语言回归分析学习笔记-0704

          本文链接:https://www.haomeiwen.com/subject/xeumultx.html