相关性是变量之间的数学关系,但不意味着因果性
线性回归法是计算最佳拟合线的一种方法
两变量之间可能不是线性的
在样本数据区间内,最佳拟合线能做出估计,但超出范围的毫无把握
如何判断两个变量之间是否有相关性,及如何用自变量预测因变量。
1.二变量可以用散点图具化其相关性
2.最小二乘法计算线性回归线:
回归线要穿过点(,)
终极目标是:误差平方和取得最小值:
解得:
斜率
截距
3.原则上所有的二变量关系都可以求出回归线,但是回归线真的能拟合二变量吗?
答案是否定的,需要用相关系数来判断拟合程度:
相关系数
其中
相关系数越接近正1,正相关性越强
相关系数越接近负1,负相关性越强
相关系数为0,则不相关
用相关系数可以衡量回归线与数据点的拟合程度,r很接近1时说明回归线估计能发挥作用。
一般来说:
r>0.5 认为是强相关
0.2<r<0.5认为是弱相关
r<0.1或0.05,则认为是无相关
4.通过回归线预测因变量的结果
附:决定系数 代表因变量的变异性的百分之多少可以有自变量确定,是相关系数的平方。
网友评论