一个通俗的解释:
描述教育水平与收入的关系的计量模型 income = b*education + e,(e为残差);
OLS等传统计量框架要求残差e不与任何变量相关,即: E(e|x)=0
而常见的残差e与x相关的方式是: 残差e的方差与变量x相关;这时候, 残差e的方差会随着x变动而变动,因此方差是异质性的. 这被称为异方差问题。
异方差问题会导致什么?
如上面的例子:
由于工资法的存在,受教育水平越高的人群收入变动越大,而教育水平较低的人群收入相差不会太大。
这时就出现异方差问题了, 因为e的方差会随着教育水平x的增大而增大。
教育水平与收入水平异方差存在的时候,大多数情况下,OLS估计出的方差会比实际的方差要小。这会过高地估计系数b的显著性 (因为, 系数的t值=系数/标准差),而不会影响系数估计值的大小。
同方差性是我们对OLS回归残差的一个要求,即简单的说就是残差必须是随机的,这个分布是我们用来描述随机分布的一种方法:均值为0,方差为sigma方。
异方差则说明残差不满足这个正态分布。
概括而言,同方差说明回归的残差项是随机的,异方差说明残差项不随机,你的回归设置或者变量的选取有问题,需要修正。
举个例子:
研究储蓄问题,收入低的人和收入高的人的储蓄其概率分布肯定不一样,想想穷学生和富大款,他们在决策储蓄这事上肯定不一样,当然富大款不一定储蓄就比穷学生多,可能还是负值,因为可以借债,但是穷学生借债就有限,形象点说,收入高的人的储蓄概率分布可能更广一点,因此方差比较大,如果穷学生和富大款都在同一组样本中,就会出现异方差。
网友评论