2.03 regression-Finding the line
回归——找到那条回归的线
开始我们讨论线性回归,线性回归是指用一条直线来近似表示两个变量(因变量与自变量)之间的关系。如下图
regression_1_1.png在直线上方的点与直线之间的y轴距离是正的,在直线下方的点与直线之间的y轴距离是负的
表示散点图中所有点的趋势有很多种可能性,如下图
regression_1_2.png密密麻麻有很多条可能的线,那怎么来最终找到那条最合适(最精确)的直线呢?
看下下面这张图
regression_1_3.png图中描述用与所有点y轴差的平方的和最小的那条线就是我们要找的最适合最精确的那条回归线。
为什么要用平方呢,是因为所有点与直线差的和都是0,所以用平方来计算.
2.04 Regression-Describing the line
如何描述这条回归线
我们需要将这条线用公式表示出来,以便能够用它来预测一些其他的实例数据。 虽然不一定准确,但是这是目前已知信息的最好的预测方法。
下图是如何计算这个公式的方法
regression_2_2.png其中 是x轴平均值, 是y轴平均值, 是所有点x值的标准差,是所有点y值的标准差,r是皮尔森系数
有了这个方法,我们就可以计算两个关联变量之间的线性回归公式了!
2.05 Regression - How good is the line?
如何判断回归函数的那条线的与实际值的匹配程度?
皮尔森系数r 表示
- 方向(正的还是负的)
- 关联性强弱
皮尔森系数平方表示
- 回归函数的预测错误率是平均数预测因变量错误率的r^2
- 自变量影响因变量变化的程度的数值
regression_3_1.png1表示完美匹配,自变量完全影响因变量
2.06 Correlation is not causation
关联性中有2点需要注意
- 关联性并不等于因果关系
就是说自变量并不是导致因变量的原因,比如巧克力食用量大和体重之间的关系,不能说因为巧克力吃的多,体重就大。可能有其他原因:比如因为体重大,人就更容易饿,就吃更多的巧克力;等等 - 要小心那些异常数据
若数据量比较小,异常数据可能会完全改变回归线函数的走势,因此要确认是否是测量错误或者是异常数据。若是则将他们删除掉。
网友评论