以下内容非原创, 来自Sam Houston State University 的 Christopher Randle教授来组上交流时的材料翻译。
simple example of Bayesian thinking 理解贝叶斯思想
在说贝叶斯系统发育分析(Bayesian Phylogenetics)之前,我们先来了解一下贝叶斯思想(Bayesian thinking)。
在最大似然法一节中我们计算了给出抛了抛硬币的例子:八次抛硬币,七次正面朝上,假设1(硬币为真)的似然值为3%,假设2(硬币为真)硬币为假的似然值为38%。在没有其他信息的情况下,我们很合理地认为假设2(硬币为假)更可信。
但是如果有其他信息呢?
现在我们了解到Anthony口袋里有20枚硬币,而只有一个假硬币。这时掏出假硬币的可能就是5%。这里的5%就是假设2(假硬币)的先验概率(prior probability)。如果我们把先验概率考虑进来再计算2种假设出现的概率,这就是它们的后验概率(posterior probability)。
The post probability of a hypothesis is theprobability of that hypothesis, given the data and prior probability of ahypothesis.
一个假设的后验概率就是给定数据和先验概率的条件下该假设的概率。
那么后验概率到底如何计算呢?
第一步,我们怀着一个先验信念(prior belif):有5%的概率掏出假硬币(或有95%的概率掏出真硬币),来分别计算两个假设的前提下,发生7次正面朝上事件的概率。这个概率为先验概率和假设似然值的乘积:
假设1(真硬币):(95%)·(3%)= 2.85%
假设2(假硬币):(5%)·(38%)= 1.90%
第二步,计算两个假设的后验概率。后验概率的计算公式为:
在本例中表达式如下:
假设1(真硬币):
假设2(假硬币):
我们用一张图来概括一下:
The numerator is the product of the priorprobability of H and the likelihood of H, while the denominator is theprobability of observing data summed over all hypothese, sometimes called thesum of joint probability.
在后验概率的计算公式中,分子是假设H的先验概率和它的似然值的乘积,而分母是所有假设条件下所观察结果的概率的总和。
虽然贝叶斯思想在系统发育中的应用是近几年的事,但是贝叶斯思想的出现是很早的事了,早于频率论思想(frequentist thinking)的出现。Reverend Thomas Bayers(1763)的遗作为贝叶斯思想打下了基础,由Harold Jeffreys在1939年的概率论(Theory of Pobability)中用公式表达。
值得一提的是,这位Harold Jeffreys还是大陆漂移学说的强烈反对者。看来人也和硬币一样具有两面性。
在了解了贝叶斯思想之后,再回到我们的重点:贝叶斯系统发育分析(Bayesian Phylogeny Estimation)。
在系统发育分析中应用贝叶斯方法时,会遇到两个主要问题:
1)如果先验信息缺失,怎么计算先验概率呢?
2)所有假设条件下所观察结果概率的总和(sum of joint probabilities)在现代计算机中是无法计算,我们如何继续分析呢?
对这两个问题的解决在后面会有详细的解释,这里先给出简单的解答:
1)当先验信息缺失时,被设计出来的先验概率要反映信息的缺失,使得信息的缺失对后面估算的影响尽可能小。
2)虽然我们无法估算任何系统发育问题的贝叶斯定理,但我们可以估算参数空间(parameter space)内一个合理样本的似然值,用这个样本和先验假设来提供后验分布的估计值。
网友评论