前言
不知道你是否见过这样的图:
企鹅分组.png这是对三组数据的线性回归,来自经典数据集“帕尔默群岛的企鹅”
- 横轴(bill_depth)表示嘴峰深度。
- 纵轴(bill_length)表示嘴峰长度。
- 不同颜色表示不同种类的企鹅。
在看到这样的图时,你是否会有疑问:置信区间为什么会出现两边宽,中间窄的情况咧?
我们从线性模型开始
线性模型
假设响应变量和自变量存在简单线性关系(两者可以用最简单的线性模型描述):
其中是回归参数(回归系数),是误差项。
根据这个式子我们可以得到预测值与自变量之间的关系:
最小二乘估参数
- 定义残差
如果我们找到一条直线,使得每个预测值和实际值之间的差的平方和(或者绝对值、正负项和)最小,也就是残差平方和最小, 此时的直线最接近实际的数据,由此而来只需要计算残差平方和(residual sum of squares ,RSS),并求其取最小值时的, 即可找到拟合直线,前人已经计算过了,使RSS最小的参数估计值是:
置信区间
某一个预测值的置信区间(confidence interval)可以用以下的式子表达:
其中某一个预测值的标准误差(standard error)可以用以下的式子表达:
其中:
- 是残差的标准误。
- 是样本大小。
- 是自变量的均值。
- 是特定的自变量。
合在一起就得到了预测值置信区间的表达式:
结论
由上式可知当取到附近时,逐渐变小,使得偏差部分整体变小,那么此时的置信区间就会变小,反映在图上就是中间窄、两边宽了;
还有一种直观的理解是:左侧点对右侧预测值的影响没有那么大,右侧点对左侧预测值的影响也没有那么大,但是两边的点都会为预测中间的值作出贡献,因此中间的预测值实际上是在获得了更多信息(两侧的点)后预测得到的,加上回归直线一定会过点,所以预测中间值的信心就很足,置信区间就窄一点。
网友评论