概念:
“回归regression”望文生义应该是,回来、归来、落叶归根、浪子回头金不换。而统计学中的“回归”却是追本溯源的意思,我们看到了一个结果,它很重要、也很有意思,往前推推,看看能得到什么?
来源:
据说最早使用“回归”这个词的是人类学家高尔顿,1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔•皮尔逊Karl·Pearson通过观察1078对夫妇的身高数据,成年儿子的身高随每对夫妇的平均身高增加而增加,两者近乎一条直线。但是有趣的是,通过观察,高尔顿还注意到,当父母身高走向极端(极高或极矮时),子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归” (regression toward mediocrity)。
现代意义:
它要比其原始意义广泛的多。具体地说,回归分析的内容包括:
• 确定因变项与自变项间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式);
• 根据样本估计并检验回归模型及未知参数;
• 从众多的自变项中,判断哪些变量对因变项的影响是显著的,哪些是不显著的;
• 根据自变项的已知值或给定值来估计或因变项的平均值并给出预测精度,或根据因变项的给定值来估计自变项的值。
例子:
说人话,还是用人身高做例子吧。假定父母身高为自变量与子女身高因变量,有因果关系。
经过研究兴趣(身高)→测量工具(尺)→研究资源(观察人群)→测量层级(定比层级)→测量精度(小数点后两位,单位为米)→收集数据→抽样形成数据集。
• 形成一个关于父母身高与子女身高的数学公式。父母身高为自变项x、子女身高为因变向y。公式为y=ax+b。
• 将已知父母身高的数据,和子女身高的数据,带入上列公式,求出ab两常数或验证公式的正确性并修正。
Y= 0.8567+0.516*X (单位为米);假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。 ——高尔顿的数据
• 如果需要观察众多自变量影响子女身高时,还需收集子女发育时营养状况、健康状况、锻炼状况等,究竟是不是存在相关或因果关系,通过分析确定显著与非显著,得出结果。
• 根据父母的身高预测子女身高,或者根据子女身高溯源到父母的身高。
结论:
总之,推理过程是:
先看两(多个)变项先假设因果关系;其次看是否相关,再次看相关是否显著,最后显著时就很可能是因果关系才能讨论因果链是否成立。
整个过程后,我们就可以追溯过往、预测将来了。当然“坑”还很多,以后再说,毕竟比星座预测的准多了。
网友评论