背景知识:
两个变项之间的关系会有以下递进关系:
1、毫无关系:两个变项你是你、我是我,一个阳关道、一个独木桥。人们常说“关你X事、关我X事”,也说毫无相关性,当然这里不涉及“蝴蝶效应”那种绝对辩证唯物主义。
2、有相关性:分强弱、正负,上篇短文专门叙述https://www.jianshu.com/p/ecfd913d69f6
3、回归分析:是预设因果的相关分析,两个变项我们假设一个是自变项、另一个是因变项。人们都喜欢因果论,事物终究因什么起、因什么落。了解清楚以前后,仿佛预测将来产生确定感,内心便平静许多。自变项为因、因变项为果。谁是因谁是果,可以由时间顺序定、也可由逻辑顺序定。前期只是假设,之后有回归分析确定两变项是否前后呼应、由此及彼。“显著”与“不显著”代替了“是”与“否”。
数据分析:
其实大白话就是猜测。开始猜测,还是由简单到复杂吧。
1、第一种猜测法—单变项分析:假设只能得到一个属性的大量数据,比如说“一个公司员工的年薪”,如前所述遵循正态分布。任意一个员工年薪是多少呢?不是瞎猜,看着正态分布图猜测。当然是猜平均值了,因为概率在那里明明白白放着,平均值一个标准差的的范围内概率可是68.26%,比扔硬币·的概率都高。具体参看:
正态分布看看误差很大的,没办法我们只知道年薪一个属性,这样就是最好了,也就是现有条件下,误差最小就是最好了。
2、第二种猜测法—二元回归分析(双变项回归分析):想要再精确一点,只有加入限制条件,为年薪找个参照,即影响年薪的条件,比如受教育程度。假定受教育程度是自变项、年薪是因变项。这样我们就不必只看正态分布,应用可怜的单一概率了。
直接举例子:spss软件,输入年薪和教育年限数据后得到结果如下
教育与年薪回归分析结果 误差对比 :水平线—第一猜测、斜线—第二猜测第一猜测:是水平线,第二猜测:是斜线,散点是各个实际数据,从图形直观看每个点到线的距离,就是各点的误差。很明显第二猜测比第一猜测靠谱多了。
少用公式这个不能少,本例回归方程(教育与年薪的关系):
y=a+bx+e——y=-18331+3909*EDUC+e
a:是斜线在x=0时y的值;
b:回归系数分两种,1、未标准化系数 利用原始数据测量单位的数值,表示当自变项变化一个单位时,因变项发生的变化。(1年教育使年薪变化3909元)2、标准化系数 自变项变化一个标准差时,因变项发生的变化标准差。另外:正负号代表正负相关。(本例中教育程度标准差2.885年,年薪标准差17075.66元,标准回归系数0.661的意思是,教育程度变化2.885年,则年薪变化为17075.66*0.661=11287.88元)。
e:是一个提醒,告诉我们,这个方程与现实还是存在误差的。
3、最小二乘回归就是把猜测误差减小了。
ordinary least squares regression 缩写OLS regression 直译 普通最小平方和回归。
求出能把误差平方和最小化的回归系数,具体求法先不考虑解释。了解最小二乘线性回归分析,就是计算出一个回归系数,使用这个系数,根据自变项的值猜测因变项的值,能最大程度减小根据平均值猜测所产生的误差。
4、判定系数R²,(标准回归系数R)显示预测准确度提高了多少。
只是说第一种猜测(正态分布的平均值)与第二种猜测(二元回归方程)有差距。第二种比第一种好,好多少呢?
第一种猜测误差是1379亿,第二种猜测减少了602亿,占原有误差的43.6%,也就是R²=0.436(R=0.661)。意味着猜测准确度提高了43.6%。
总结:二元回归分析(加一个限制条件,预设因果关系),提高了仅用平均值猜测的准确度。文中没有提及计算方法,所有计算用spss软件代替,我们了解原理,直接用结果就好。
网友评论