例子1 平均值
MCMC结果与概率学家得到的结果一致。因为 u的先验值是没有信息的。P(u) = 1, 所以和概率学家将其当做固定效应的结果一致。

例子2 sir效应
我们知道仔猪的生长率,求来自不同父亲的不同。
首选我虚们需要知道方差(BLUP发):

如果使用MCMC(gibbs 抽样):我们具有y并且假设所有需要估计的变量为random变量。 Gibbs对每个变量抽样时,是假设其他所有的变量已知的情况下进行。所以需要给他们初始值。
后验分布是

每次你抽样的参数从后验分布中,次数多了,可以计算每个参数的平均值作为需求参数的估计值。
收敛和自动相关
要去除刚开始的一部分数据(burn -n),因为你的初始值可能不同
因为每次抽样基于上一次的结果,所以两次之间会自动有相关,所以需要抽样很多次,并且间隔抽取使用。
另一个解决方法:是运行多条链进行。
例子3 mixtures
假设我们称重仔猪的体重,有的在第一天,有的在第二天,但是我们忘记的具体标记,那我们怎么查看不同天称重,是否显著不同呢?

图示,体重是符合正太分布,其他参数不beta分布:

写成所有参数的后验分布:

后验分布为:

抽样每个动物,抽样在

条件下; 抽样π在t的条件下。
和EM算法类似
总结
- 对于每个变量,需要在其他变量已知的后验条件和和表型的条件下进行。
- 对于确切的变量,给出分布,会更容易进行
- 抽取很多样本和进行多条链,有利于结果的可靠性
- 根据后验的结果,可以计算需要参数的平均值和SE
问题
对于后验分布的选择,可以自己选择,但是越复杂的分布,越难完成。正太分布是最常用的。
如果没有足够信息对某个效应,可能将其当做随机效应。
得到方差为负值,这有可能说明你的模型有错误(y);也可能因为方差非常小
网友评论