美文网首页
【系列】简单线性回归(1)无公式-概念理解

【系列】简单线性回归(1)无公式-概念理解

作者: 秋小鱼Sandy | 来源:发表于2017-10-17 14:21 被阅读260次

    这篇文章介绍下简单线性回归的理解。

    还是用一个例子来说明。不像在中国,在美国旅游我们会知道,凡是有人为你服务,我们都需要有一定小费的支出,小费的支出比例10%-20%不等。假设小A留学生在一家餐厅打工,他在每服务一桌客户后都会受到一笔小费,他对小费金额做了记录,如下图所示,遗憾的是他没有对每桌客户的消费金额做记录。

    而此时,小A希望能够对他下一桌收到的消费做一个预测。然而,当前能够参考的数据少的可怜,仅仅有一个消费金额的数据。于是此时最佳的预测值就是根据以往的小费金额的平均值,我们将这根平均线定义为最佳拟合线(Best-fit line)

    然而,这根最佳拟合线和历史数据对比起来是否很理想呢?我们可以进行一个简单的计算,最佳拟合线的第一笔小费的预测值和第一小费实际值差异为-5,第二笔为7。那么将历史数据的所有差异进行加总,为了避免负值抵消正值的效果,我们进行平方后加总。得到:(5-10)^2+(17-10)^2+.......=120。

    这里面我们给到一个定义,将120称为线性回归中的残差,英文讲sum of squares of residuals,简写SSE。

    简单线性回归的最终目标是找到一条最佳拟合线(Best-fit line)能够让我们的SEE变得最小。

    假设小A从店长那里找到了以往的消费记录,得到了新的散点图信息。

    这时,小A开始从平均位置开始移动线,从而寻找能够使得SSE最小的那根线,直到移动至下图中第二张图中状态。

    这样小A就找到在有消费金额和小费两个信息下的最佳拟合线,也就实现了简单的线性回归。

    当然上述描述中这样无数次的移动曲线看起来太没有效率,统计学家们用了数学计算的方式得到该线的位置,计算的方法就叫做最小二乘法。

    相关文章

      网友评论

          本文标题:【系列】简单线性回归(1)无公式-概念理解

          本文链接:https://www.haomeiwen.com/subject/mqdduxtx.html