2.3.4, 2.3.5 高斯分布的最大似然估计给出了对于参数和
的点估计,这里我们引入这些参数的先验分布,来介绍一种贝叶斯方法。
首先我们假设方差已知,要从一组
次观察
中推断均值
,考虑似然函数,在
给定的情况下,观测的数据集出现的概率,可以看成是
的函数,有
似然函数与有关的只有指数上的关于
的二次型,所以我们可以将先验分布
选成高斯分布,因为高斯分布与
有关的也只有指数上的关于
的二次型,他是似然函数的一个共轭分布,而后验概率是两个µ的⼆次函数的指数的成绩,因此也是⼀个⾼斯分布。我们令先验分布为
后验概率为
通过计算不难得到
对含和
的项进行计算,可证
说明:
- 公式给出的后验分布的均值是先验均值
和最⼤似然解
的折中,如果观测数据点的数量
,公式就变成了先验均值。对于
,后验均值由最⼤似然解给出。
- ⽅差的倒数被称为精度,精度可以相加,因此后验概率的精度等于先验的精度加上每⼀个观测数据点所贡献的⼀个精度,如果观测数据点的数量
,公式就变成了先验的⽅差。对于
,⽅差
趋于零,从⽽后验分布在在最⼤似然解附近变成了⽆限⼤的尖峰。
这是一个顺序估计的框架,当观察到第个数据点时,会根据两个量:观察到第
个数据点时候的均值和数据点
的值,先验分布是
时候的分布,后验分布公式如下
方括号的项是观测到个数据点之后的后验概率分布,也可以看做是先验分布,数据点
的贡献被单独了写出来。
上面我们假定方差已知来估计均值
下面我们假定均值已知来估计方差
同前面一样我们先来找先验分布的共轭形式,下面会用精度来代替
,考察
的似然函数
共轭分布应该正比如的幂指数,和
的线性函数的指数,来看Gamma分布的定义
保证了公式能够被正确归一化,很明显Gamma分布就是
的似然函数的共轭分布,Gamma分布的均值和方差为
![](https://img.haomeiwen.com/i7908369/5119cede09fb56c6.png)
考虑一个先验分布
![](https://img.haomeiwen.com/i7908369/45eb0d2874420af5.png)
接下来是对于D维向量x的多元⾼斯分布的讨论
- 假设精度矩阵
已知,均值的共轭先验分布依然是高斯分布
- 假设均值
已知,精度矩阵
的共轭先验分布是Wishart分布,定义如下
-
假设均值和精度矩阵都是未知的,类似于⼀元变量的推理⽅法,共轭先验为:
网友评论