美文网首页数据分析
women数据集-线性回归2021.3.17

women数据集-线性回归2021.3.17

作者: R语言_茶味先生 | 来源:发表于2021-03-18 11:44 被阅读0次

1、 线性回归

回归regression,通常指那些用一个或多个预测变量,也称自变量或解释变量,来预测响应变量,也称为因变量、效标变量或结果变量的方法。

  • 进行线性回归需要满足的条件:
    逻辑上:
    1、正态性:对于固定的自变量值,因变量值成正态分布。
    2、独立性:因变量之间相互独立。
    3、线性:因变量与自变量之间为线性相关。
    4、同方差性:因变量的方差不随自变量的水平不同而变化。也可称作不变方差。
    物理上:
    1、线性回归要求的数据类型是数据框

1.1 线性回归案例

1、锻炼时间与消耗卡路里之间是什么关系?
2、是直线关系还是曲线关系?
3、卡路里消耗到某个点后,锻炼是否还有效果?
4、对年轻人和老人影响一致吗?
5、对男性和女性影响一致吗?
6、对肥胖的人和苗条的人影响一致吗?


图1 回归分析案例

1.2 普通最小二乘法线性回归(OLS,最简单的回归方法)

他的思想就是在散点中找到一条直线使得各个点到这条直线的距离(残差)之和最小


图2 表达式中常用符号的意义
1.2.1 lm线性回归(linear models)

用lm对数据进行线性回归的预测

women
plot(women$height,women$weight)
fit<-lm(weight~height,data=women)#这里的fit没有任何意义,这只是一个命名,fit作为拟合意思适合作为结果的赋值,仅此而已
summary(fit)

下面我们对summary给出的结果进行一一解释


图3 线性回归结果
  • call列直接列出线性回归的公式;

  • residuals为残差,残差指真实值和预测值之间的差,结果中给出五个值,最大值最小值以及四分之一位,中位和四分之三位的残差值。


    图4 残差的解释
  • coefficients为系数

  • Intercept为截距项

  • estimate是系数,相当于y=ax+b中的b
    通过这一项可以知道weight和height之间的关系,weight=3.45
    height-87.51667
    线性回归完了之后就会得到一个函数,就可以通过这个函数,知道weight可以预测出height,知道一个值可以预测另一个值。

  • t value

  • Pr(p-value)是估计系数为0假设的概率。要小于0.05比较好,星号*越多越好。

  • residual standard error为残差标准误,显示残差的标准误差,误差越小越好。

  • multiple R-squared为R方判定系数,是用于衡量模型拟合质量的指标,取值在[0,1]之间,值越大越好。他是表示回归模型所能解释的响应变量的方差比例,简单来说就是这个模型能够解释99.1%的数据,只有0.9%的数据不符合这个模型。

  • F-statistic为F统计量,这个值说明模型是否显著,也是用p-value值来衡量,p值越小,说明这个模型越显著。
    一般线性回归后,评测模型是否有价值,首先看F统计量的p值是否小于0.05,若小于,再看R方判定系数,看模型能够解释多少变量,解释的越多,说明模型越精准。

相关文章

网友评论

    本文标题:women数据集-线性回归2021.3.17

    本文链接:https://www.haomeiwen.com/subject/csdecltx.html