1、 线性回归
回归regression,通常指那些用一个或多个预测变量,也称自变量或解释变量,来预测响应变量,也称为因变量、效标变量或结果变量的方法。
- 进行线性回归需要满足的条件:
逻辑上:
1、正态性:对于固定的自变量值,因变量值成正态分布。
2、独立性:因变量之间相互独立。
3、线性:因变量与自变量之间为线性相关。
4、同方差性:因变量的方差不随自变量的水平不同而变化。也可称作不变方差。
物理上:
1、线性回归要求的数据类型是数据框
1.1 线性回归案例
1、锻炼时间与消耗卡路里之间是什么关系?
2、是直线关系还是曲线关系?
3、卡路里消耗到某个点后,锻炼是否还有效果?
4、对年轻人和老人影响一致吗?
5、对男性和女性影响一致吗?
6、对肥胖的人和苗条的人影响一致吗?
![](https://img.haomeiwen.com/i25656475/a307a24f39f9be3a.png)
1.2 普通最小二乘法线性回归(OLS,最简单的回归方法)
他的思想就是在散点中找到一条直线使得各个点到这条直线的距离(残差)之和最小
![](https://img.haomeiwen.com/i25656475/1c06221850093f14.png)
1.2.1 lm线性回归(linear models)
用lm对数据进行线性回归的预测
women
plot(women$height,women$weight)
fit<-lm(weight~height,data=women)#这里的fit没有任何意义,这只是一个命名,fit作为拟合意思适合作为结果的赋值,仅此而已
summary(fit)
下面我们对summary给出的结果进行一一解释
![](https://img.haomeiwen.com/i25656475/a0faab4e671a8b11.png)
-
call列直接列出线性回归的公式;
-
residuals为残差,残差指真实值和预测值之间的差,结果中给出五个值,最大值最小值以及四分之一位,中位和四分之三位的残差值。
图4 残差的解释
-
coefficients为系数
-
Intercept为截距项
-
estimate是系数,相当于y=ax+b中的b
通过这一项可以知道weight和height之间的关系,weight=3.45height-87.51667
线性回归完了之后就会得到一个函数,就可以通过这个函数,知道weight可以预测出height,知道一个值可以预测另一个值。 -
t value
-
Pr(p-value)是估计系数为0假设的概率。要小于0.05比较好,星号*越多越好。
-
residual standard error为残差标准误,显示残差的标准误差,误差越小越好。
-
multiple R-squared为R方判定系数,是用于衡量模型拟合质量的指标,取值在[0,1]之间,值越大越好。他是表示回归模型所能解释的响应变量的方差比例,简单来说就是这个模型能够解释99.1%的数据,只有0.9%的数据不符合这个模型。
-
F-statistic为F统计量,这个值说明模型是否显著,也是用p-value值来衡量,p值越小,说明这个模型越显著。
一般线性回归后,评测模型是否有价值,首先看F统计量的p值是否小于0.05,若小于,再看R方判定系数,看模型能够解释多少变量,解释的越多,说明模型越精准。
网友评论