前言
俗话说某一天贝叶斯学派与经典统计学派(频率派)对回归问题展开了激烈的讨论。。。。。
一般线性回归
一般线性回归的观点是寻找模型参数的单一的最佳值
一般线性回归通常采用OLS来进行参数估计,以一元的回归为例子:
一般线性回归更强调的是点估计,在OLS的过程中,当确定一个 x 时,我们的目标就是使得 y^ - y 达到最小,也就是使得 ε 趋近于 0 。得到最优解后,带入回归方程所获得的那个点为即为 y^,而模型的参数都是固定的一个最佳值,如下图所示:
图中的分布是 y 的分布,即确定一个 x 的值多次实验会得到观测值 y 的分布(一般均假设为正态分布),而黑色的点即为分布的期望(或者为y^ - y),回归方程将会经过这两个黑色的点
因此,一般的线性回归更侧重于点估计,体现在如下几个方面:
- 得到的 y^,一般以分布的期望作为点估计
- 通过OLS得到的截距 β0,是一个固定的值
- 通过OLS得到的斜率 β1,是一个固定的值
贝叶斯线性回归
而贝叶斯学派则认为没必要找到模型参数的单一的最佳值,而是确定模型参数的后验分布。这样做的好处就是减少了极端值所带来的影响,拟合效果更好一些
因此贝叶斯回归得到的模型系数是一个分布,而不是一个最佳值
根据贝叶斯定理:
最终我们要求的是参数的后验分布
显然,P(β | y,x) ∝ P(y | β,x) × P(β | x);假设 P(y | β,x) 和 P(β | x)均服从高斯分布,那么通过采样的方式就可以模拟出 P(y | β,x) × P(β | x)的大致分布,而分布 **P(β | y,x) ** 的期望和分布 P(y | β,x) × P(β | x) 的期望相同,因此得到:
导图勿喷
得到的参数是一个后验分布,一般我们还是取均值作为特征值表示回归方程
当观测值少一些时,利用贝叶斯的方法得到的回归方程更为稳健;当观测值多一些时,OLS和贝叶斯的方法得到的近乎相同
当观测值少时,OLS的方法可能收到极端值影响,而贝叶斯回归得到的参数是一个分布,似然值最大的那个点对应的期望代表了大部分数据的特征,因此较为稳健
网友评论