线性回归

线性回归

作者: yayalisa小可乐 | 来源:发表于2018-06-15 16:50 被阅读0次

第 1 步：相关性

使用相关函数 CORREL(data_y, data_x)，我们可以计算目标变量和预测变量之间的相关性。该值通常称为 r。r 的范围为 -1 到 +1。r 越接近 +1 或 -1，x 和 y 之间的相关性越高。在我们的例子中，r 的值为 0.987，表示强相关。

第 2 步：计算 R 平方

虽然强相关很好，但我们真正想知道的是，数据在直线上的拟合表现如何。好在，我们可以通过计算决定系数（coefficient of determination）或 R 平方（记为 R² 或 r²），来了解此公式在逼近数据方面的表现有多好。

R 平方是取值在 0 和 1 之间的一个系数。R 平方可以解读为，模型解释的观察值变差的百分比，或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。（注：目标变量 y 的取值波动称为“变差”）

解读 R 平方的注意事项

你如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题，R 平方很低可能是可以接受的。而且，较高的 R 平方也有可能由于模型不佳导致的。但是一般来说，R 平方越高越好，特别是当你添加和删除预测变量来决定最强的预测模型时

excel函数：

斜率函数：SLOPE(data_y, data_x)

截距： INTERCEPT(data_y, data_x)

相关性：CORREL(data_y, data_x)

r方：rsq(data_y, data_x)

解释回归结果

以下是线性回归结果。几乎任何回归工具都会类似地报告结果。不要被数字的量级吓到；我们将演示最重要的值以及如何解释和应用它们。有三个值尤其重要：系数估计值（coefficient estimates）、p 值（p-values）和 R 平方。

系数估计值（coefficient estimates）

还记得我们的回归方程 Y = B0+B1X1+B2X2…吗？这些系数是 B 的估计值。它们代表每个预测变量与目标变量之间的关系的大小。例如，员工人数的系数指在其他所有变量保持不变的情况下，每增加一名员工，将增加约 0.1 工单。一个更简单的思考方式是，我们可以预期，每 10 名员工将产生 1 张工单。

P 值（P Value）

The p 值是观察结果（系数估计值）偶然发生的概率，并且预测变量与目标变量之间没有实际关系。换句话说，p 值是系数为零的概率。p 值越低，预测变量和目标变量之间存在关系的概率就越高。当 p 值较高时，则不应该依赖于系数估计。当预测变量的 p 值低于 0.05 时，其与目标变量之间的关系被认为具有统计学意义。

统计显著性（Statistical Significance）

“统计显著性是一种不可能随机发生的结果，而是很可能归因于某个具体原因。” —— 投资百科。

除 p 值外，右边的星也表示具有统计显著性。星 (*) 越多表示显著性越高。在我们的例子中，我们看到预测变量是显著的，其中员工人数和合同价值是最显著的。通常，我们要从模型中删除不能统计显著地预测目标变量的变量。

R 平方

在我们的例子中，R 平方为 0.9651，调整的 R 平方为 0.9558。因此，我们通过增加类别改进了模型。在现实问题中，我们可能会使用不同的预测变量运行模型，或者看看我们是否有额外的信息添加到模型。

记住，R 平方的取值范围为 0 到 1，表示由预测变量变化解释的目标变量的变化量。R 平方越高，模型的解释力就越高。

既然我们有一个较强的模型，便可以进行分析了。

相关文章

网友评论

本文标题：线性回归

本文链接：https://www.haomeiwen.com/subject/pckueftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|线性回归|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！