在最近的项目中经常会做到线性回归方面的分析,跟客户解释相关结果时,用比较学术的统计词汇阐述结果常常令人不知所云。我常常想,只有能用最简单的话跟别人解释清楚才真的证明是你懂了。于是为了让自己看起来好懂的样子,我在网上扒拉半天,找到一本《例解回归分析》:
96dda144ad3459823fe10ed50ff431adcbef840a.jpg它恰好是一本深入浅出的书,在此十分推荐大家阅读(虽然我也还没读过多少吧!哈哈!)今天想跟大家分享的正是这本书中的内容:回归系数的解释(在48页)。
对于多元回归方程中的回归系数的解释比较混乱,可以从不同的角度进行解释。先说一下回归方程,简单线性回归方程表示一条直线,而多元线性回归方程表示一个平面(有两个预测变量时)或者一个超平面(有多个预测变量时)。在多元回归分析中,常系数的意义与简单回归中的一样,表示:当时的值,而回归系数则有多种解释。一种解释是,当变化一个单位而其他预测变量固定取常数时,Y的改变量,这个改变量与其他预测变量固定取什么常数无关,然而,在实际中,预测变量间往往是有关联的,可能无法做到固定某些预测变量的值而改变其他变量的值,这是这种解释的弱点。
回归系数的另一种解释是,经过其他预测变量的“调整”后,对响应变量的贡献,因此也称为偏回归系数。那多元回归中的“调整”如何理解呢?作者用有两个解释变量的多元回归为例说明这个问题。例如在主管业绩数据中,仅取和作为解释变量,得到回归方程为:
作者下面用了三个步骤对“调整”的意义进行了解释:
-
拟合对的简单回归模型,得到;
记这个简单回归模型的残差为,该符号中,圆点之前的变量为响应变量,之后的为预测变量。我们称为经过“调整”之后的(实际上,这个调整之后的就是残差) -
拟合对的简单回归模型,得到;
记此回归残差为,也称为经过“调整”后的。 -
拟合上面两个残差的简单回归模型,其中是响应变量,是预测变量,得到。
一个有意思的结果是,在最后一个回归方程中,的系数也是。事实上,他们的标准误也一样,如何直观的解释呢?在第一步中,作者考察了和之间的线性关系。得到的回归残差是中去掉的线性影响之后的部分,或者说,是中与没有线性关系的部分。第二步中,作者用代替,重复第一步的分析,此时的残差是中与没有线性关系的部分,是经过“调整”后的。第三步简历上面的到的的残差和的残差之间的线性关系,得到的回归系数表示,去掉对和的线性影响之后,对于的影响,即经过调整后,对的影响。这就是对回归系数的第二种解释。
现在回到一般的多元线性回归,回归系数反映的是对响应变量的贡献,这种贡献是和都经过其他预测变量的线性调整后得到的。因此也取名偏回归系数,这就是多元回归中对回归系数的第二种解释,比第一种解释统计意义深刻一些。
网友评论