经典Vs贝叶斯统计对点估计和线性回归理解

作者: tiger007lw | 来源:发表于2020-12-22 21:09 被阅读0次

经典Vs贝叶斯统计对点估计和线性回归理解
一般线性回归与贝叶斯线性回归
深度学习面试
条件随机场模型简单介绍(1)
让我去健身的不是漂亮小姐姐，居然是贝叶斯统计_大数据分析培训_厦
机器学习笔记E4--朴素贝叶斯
机器学习入门 -- 常用算法介绍
机器学习新手必学十大算法指南
2020-05-14
【机器学习技术】高斯过程初探

一、点估计

数理统计有两大基本内容，估计（参数估计；非参数估计，如总体分布）和假设检验（原假设,备择假设）。参数估计有点估计和区间估计。对于点估计的判定都是从经验风险来判定，在此，无论是频率学派还是贝叶斯学派都没有异议，不过再往后走，二者的观点就不一样了。二者在估计好坏的准则、方法、意义都是不一样的。进行估计的时候，是按照经验风险最小化准则进行了。风险是通过对参数（线性模型中就是截距、回归系数）真实值和估计/预测值形成函数关系来判断。

1、损失函数和风险函数

首先使用参数的真实值和估计值的一个函数关系来确定“损失函数” ，

image.png

这个函数有多种，一般都和残差有关，如常见的平方损失函数为

image.png
损失函数用拟合曲线对应点因变量的估计值作为真实值时，存在风险，风险函数定义为损失函数的均值，既

image.png ……①

这个函数① 在经典和贝叶斯统计中有不同定义。进行估计时，找到对所有的观察值使得风险函数最小的估计值，这样就实现风险最小化。此为一致最小风险估计。

2、频率学派点估计

经典统计中进行点估计，我们希望估计出的参数能让① 式最小，我们对估计量好坏评价标准：无偏的、有效的、一致的。目的是希望得到的参数带入模型/函数中，让所有的真实输出值y和预测输出值y^hat(y上面加一个帽子，记得学统计学时老师读的是 y "cafu”,但是在其他地方看到又是读成 y"hat")之间差别最小，于是参数估计的好坏就“等价于”y和y^hat 的偏差大小。于是参数风险最小化映射到真实输出值y和预测输出值y^hat 的关系。一般通过残差（或对残差进行加工，如平方）或者其他考量方式。参数真实值和预测值差的平方的均值构成风险函数，寻找参数实现一致最小风险估计的要求。

image.png

而要实现上述目标，通过让残差平和和最小时对应的参数就可以求得目标参数

image.png

这也就是我们常见的最小二乘估计(OLS)方法来进行估计，得到的是具体的点，这样得到的关于参数 θ 正好符合一致最小风险估计的要求。

3、贝叶斯学派点估计

贝叶斯估计中，估计的参数是服从某个分布随机变量——先验/后验分布。因此首先因为参数不是一个具体的值而是一个分布，故参数的所有可能值和损失函数相乘的累加来描述损失才是合理的!

image.png

这就是贝叶斯学派对损失的看法，使上述公式最小的解就是贝叶斯解。
由上式得到参数的先验风险，我们需要得到的是后验风险，在先验风险基础上，被积表达式中加上 f(x|θ) 这个条件密度（和似然函数相近）就成为了后验风险。

image.png

……②

让②式最小的参数叫做贝叶斯解，也就是我们的点估计。在②式中损失函数的构成方式一般有三种

image.png
因此得到的贝叶斯解有三种不同的结果

image.png

因此，对于不同的损失函数，得到的点估计（贝叶斯解）是不一样的。让②式最小的 θ*hat 就是贝叶斯解。而且满足无偏、有效、一致的评判原则。

image.png

二、经典线性回归

对于多元元线性回归，模型表示为

image.png

需要估回归方程的截距（常项）、系数，用 β（β0，β1，…，βn）来表示。
如果随机扰动 ε 服从 Gauss——Markov 假定，经典回归是在一致最小风险原则下通过均方误差

image.png

最小化，使用最小二乘估计针对 y 和 y^hat 计算得到确定的参数θ ，形成一条拟合直线。

三、贝叶斯线性回归

1、线性模型及总体关于参数（β，σ）形成的联合分布

多元线性回归模型可以用以下模型来描述，X 为首列为1 的 m个自变量的n个取值形成的 n*(m+1) 矩阵，Y 为对应的 n组观测值的因变量，用矩阵方程表示如下：

image.png

……③ ，对于上述模型通过最小二乘估计(OLS)估计参数 β（β0，β1，…，βn)
公式 ③中这里可以看到，事实上有两类随机变量，一类是β（截距和系数），一类是随机扰动ε 中的标准差σ 。于是总体是关于参数（β，σ）的 “联合分布”！而给定的观察值则是 X矩阵和 Y向量。过程是先得到（β，σ）的先验分布，然后再得到他们的后验分布，最后在后验分布中通过贝叶斯解得到点估计。

image.png
从著名的贝叶斯公式中可以看到，把先验分布、似然函数和边际分布找出来就可以得到后验分布。下面分别说明这三个部分。

2、确定来自于总体的似然函数

在多元线性模型中，根据 gauss-Markov 假定，可知随机扰动向量的分布

image.png

带入③可得总体服从高斯分布，

image.png
（β，σ）联合分布的似然函数是正态分布核的连乘

image.png

3、参数（β，σ）联合先验分布和后验分布

对（β，σ）的先验分布采用无信息先验分布假设，按照 Jefferys 准则最后可以得到（β，σ）的联合先验分布

image.png

……④
将其和似然函数带入 ③ 中，是关于β，σ 的函数

image.png

4、回归系数的贝叶斯统计

在参数（β，σ）的联合后验分布中，对σ 进行积分，得到 β 的后验边缘密度函数，公式中有 t 分布的核，因此根据共轭先验设定，后验分布也是 t 分布。在向量损失函数下，参数的贝叶斯估计为

image.png

5、随机扰动方差 σ^2 的贝叶斯统计

在参数（β，σ）的联合后验分布中，对β 进行积分，得到 σ 的后验边缘密度函数，进而得到 σ2 的后验边缘密度函数，

image.png

其表达式为倒 Gamma 分布密度函数的核，因此在平方损失函数下，σ2 的贝叶斯估计为

image.png
比经典统计的估计在分母上少 1 。

三、经典回归和贝叶斯回归的关系

经典统计回归拟合出的是一条直线。
贝叶斯统计中，因为（β，σ）的联合后验参数服从某种分布，因此估计的参数取值有很多，表现为一系列直线（不是一条！），但是哪一条直线是最佳拟合，即哪一组β(向量)才是最合适的。就需要对有后验分布求贝叶斯解。贝叶斯点估计与损失函数类型（一般有三种）和先验分布都相关，因此，我们在进行贝叶斯回归时，对于后验参数分布的计算，除了要考虑共轭先验分布外，还要考虑损失函数类型，这对于有哑变量（取值只有0，1）时，是一个现实的需求。因此一定要小心。
求贝叶斯解时，在贝叶斯公式中，有先验分布和似然函数。后者假设总体服从正态分布，在均方误条件下，得到的方程截距和系数参数与经典统计下OLS一样，但二者有本质差别。经典统计得到的是一个确定的值，贝叶斯统计得到的是一个分布。
当数据量很大时，贝叶斯统计估计的一系列直线逐渐趋于重合，极限是经典统计估计的那条线。从贝叶斯公式中也好理解理，数据量大时，似然函数影响越来越大，先验分布的影响也越来越小。

网友评论

本文标题：经典Vs贝叶斯统计对点估计和线性回归理解

本文链接：https://www.haomeiwen.com/subject/xdbsnktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

经典Vs贝叶斯统计对点估计和线性回归理解

一、点估计

1、损失函数和风险函数

2、频率学派点估计

3、贝叶斯学派点估计

二、经典线性回归

三、贝叶斯线性回归

1、线性模型及总体关于参数（β，σ）形成的联合分布

2、确定来自于总体的似然函数

3、参数（β，σ）联合先验分布和后验分布

4、回归系数的贝叶斯统计

5、随机扰动方差 σ^2 的贝叶斯统计

三、经典回归和贝叶斯回归的关系

相关文章

经典Vs贝叶斯统计对点估计和线性回归理解

一般线性回归与贝叶斯线性回归

深度学习面试

条件随机场模型简单介绍(1)

让我去健身的不是漂亮小姐姐，居然是贝叶斯统计_大数据分析培训_厦

机器学习笔记E4--朴素贝叶斯

机器学习入门 -- 常用算法介绍

机器学习新手必学十大算法指南

2020-05-14

【机器学习技术】高斯过程初探

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

经典Vs贝叶斯统计对点估计和线性回归理解

一、点估计

1、损失函数和风险函数

2、频率学派点估计

3、贝叶斯学派点估计

二、经典线性回归

三、贝叶斯线性回归

1、线性模型及总体关于参数（β，σ）形成的联合分布

2、确定来自 于总体的似然函数

3、参数（β，σ）联合先验分布和后验分布

4、回归系数的贝叶斯统计

5、随机扰动方差 σ^2 的贝叶斯统计

三、经典回归和贝叶斯回归的关系

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2、确定来自于总体的似然函数