美文网首页
线性回归

线性回归

作者: yayalisa小可乐 | 来源:发表于2018-06-15 16:50 被阅读0次

    第 1 步:相关性

    使用相关函数 CORREL(data_y, data_x),我们可以计算目标变量和预测变量之间的相关性。该值通常称为 r。r 的范围为 -1 到 +1。r 越接近 +1 或 -1,x 和 y 之间的相关性越高。在我们的例子中,r 的值为 0.987,表示强相关。

    第 2 步:计算 R 平方

    虽然强相关很好,但我们真正想知道的是,数据在直线上的拟合表现如何。好在,我们可以通过计算决定系数(coefficient of determination)或 R 平方(记为 R² 或 r²),来了解此公式在逼近数据方面的表现有多好。

    R 平方是取值在 0 和 1 之间的一个系数。R 平方可以解读为,模型解释的观察值变差的百分比,或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。(注:目标变量 y 的取值波动称为“变差”)

    解读 R 平方的注意事项

    你如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题,R 平方很低可能是可以接受的。而且,较高的 R 平方也有可能由于模型不佳导致的。但是一般来说,R 平方越高越好,特别是当你添加和删除预测变量来决定最强的预测模型时

    excel函数:

    斜率函数:SLOPE(data_y, data_x)

    截距: INTERCEPT(data_y, data_x)

    相关性:CORREL(data_y, data_x)

    r方:rsq(data_y, data_x)

    解释回归结果

    以下是线性回归结果。几乎任何回归工具都会类似地报告结果。不要被数字的量级吓到;我们将演示最重要的值以及如何解释和应用它们。有三个值尤其重要:系数估计值(coefficient estimates)、p 值(p-values)和 R 平方。

    系数估计值(coefficient estimates)

    还记得我们的回归方程 Y = B0+B1X1+B2X2…吗?这些系数是 B 的估计值。它们代表每个预测变量与目标变量之间的关系的大小。例如,员工人数的系数指在其他所有变量保持不变的情况下,每增加一名员工,将增加约 0.1 工单。一个更简单的思考方式是,我们可以预期,每 10 名员工将产生 1 张工单。

    P 值(P Value)

    The p 值是观察结果(系数估计值)偶然发生的概率,并且预测变量与目标变量之间没有实际关系。换句话说,p 值是系数为零的概率。p 值越低,预测变量和目标变量之间存在关系的概率就越高。当 p 值较高时,则不应该依赖于系数估计。当预测变量的 p 值低于 0.05 时,其与目标变量之间的关系被认为具有统计学意义。 

    统计显著性(Statistical Significance)

    “统计显著性是一种不可能随机发生的结果,而是很可能归因于某个具体原因。” —— 投资百科

    除 p 值外,右边的星也表示具有统计显著性。星 (*) 越多表示显著性越高。在我们的例子中,我们看到预测变量是显著的,其中员工人数和合同价值是最显著的。通常,我们要从模型中删除不能统计显著地预测目标变量的变量。

    R 平方

    在我们的例子中,R 平方为 0.9651,调整的 R 平方为 0.9558。因此,我们通过增加类别改进了模型。在现实问题中,我们可能会使用不同的预测变量运行模型,或者看看我们是否有额外的信息添加到模型。

    记住,R 平方的取值范围为 0 到 1,表示由预测变量变化解释的目标变量的变化量。R 平方越高,模型的解释力就越高。

    既然我们有一个较强的模型,便可以进行分析了。

    相关文章

      网友评论

          本文标题:线性回归

          本文链接:https://www.haomeiwen.com/subject/pckueftx.html