1、线性回归

回归regression，通常指那些用一个或多个预测变量，也称自变量或解释变量，来预测响应变量，也称为因变量、效标变量或结果变量的方法。

1.1 线性回归案例

1、锻炼时间与消耗卡路里之间是什么关系?
2、是直线关系还是曲线关系?
3、卡路里消耗到某个点后，锻炼是否还有效果?
4、对年轻人和老人影响一致吗?
5、对男性和女性影响一致吗?
6、对肥胖的人和苗条的人影响一致吗?

图1 回归分析案例

他的思想就是在散点中找到一条直线使得各个点到这条直线的距离（残差）之和最小

图2 表达式中常用符号的意义

用lm对数据进行线性回归的预测

women
plot(women$height,women$weight)
fit<-lm(weight~height,data=women)#这里的fit没有任何意义，这只是一个命名，fit作为拟合意思适合作为结果的赋值，仅此而已
summary(fit)

下面我们对summary给出的结果进行一一解释

图3 线性回归结果

call列直接列出线性回归的公式；
residuals为残差，残差指真实值和预测值之间的差，结果中给出五个值，最大值最小值以及四分之一位，中位和四分之三位的残差值。

图4 残差的解释
coefficients为系数
Intercept为截距项
estimate是系数，相当于y=ax+b中的b
通过这一项可以知道weight和height之间的关系，weight=3.45height-87.51667
线性回归完了之后就会得到一个函数，就可以通过这个函数，知道weight可以预测出height,知道一个值可以预测另一个值。
t value
Pr(p-value)是估计系数为0假设的概率。要小于0.05比较好，星号*越多越好。
residual standard error为残差标准误，显示残差的标准误差，误差越小越好。
multiple R-squared为R方判定系数，是用于衡量模型拟合质量的指标，取值在[0,1]之间，值越大越好。他是表示回归模型所能解释的响应变量的方差比例，简单来说就是这个模型能够解释99.1%的数据，只有0.9%的数据不符合这个模型。
F-statistic为F统计量，这个值说明模型是否显著，也是用p-value值来衡量，p值越小，说明这个模型越显著。
一般线性回归后，评测模型是否有价值，首先看F统计量的p值是否小于0.05，若小于，再看R方判定系数，看模型能够解释多少变量，解释的越多，说明模型越精准。