在R语言中实现贝叶斯-MCMC（核酸替换速率和分子距离）

作者: 杨康chin | 来源:发表于2020-12-16 00:33 被阅读0次

在R语言中实现贝叶斯-MCMC（核酸替换速率和分子距离）
变分推断
分子进化理论（11）蛋白质进化速率
朴素贝叶斯法
R语言中的Stan概率编程MCMC采样的贝叶斯模型
R语言：朴素贝叶斯算法实现对中文垃圾邮件的分类
Beast v1.8简易手册
Flink实现高斯朴素贝叶斯
[译] 第三章 MCMC
2019-01-28

主要参考资料：来自帝国理工学院的副研究员 Fabricia Nascimento的教程网站
https://thednainus.wordpress.com/2017/03/03/tutorial-bayesian-mcmc-phylogenetics-using-r/
用到的R代码都在：https://github.com/thednainus/Bayesian_tutorial
文章中有一些原数据来源于杨子恒老师的Molecular Evolution: A statistic approach一书，可以去经管之家下载。

MCMC已经被广泛应用于phylogeny、divergence time和物种界定等领域。
这篇教程的主要目标是使用贝叶斯MCMC来评估两个物种之间的分子距离（记为参数d），K80模型下核酸转换/颠换速率的比值（transition/transversion rasio；记为参数k）。核酸数据通过三项分布来计算。对于参数d和k施加gamma分布。

不了解贝叶斯公式和MCMC的朋友请先自行百度大致了解一下

Part1：计算似然值likelihood、先验prior和后验分布posterior distribution（un-normalized非常态化的）（为避免歧义，下面的部分术语还是用英文）

假设现在有一个人类和大猩猩的pairwise alignment，一共948bp，两者之间存在 84 个 transitions 和 6个 transversions。(为了避免数字上存在问题，下面都使用对数化来计算)

n <- 948 # length of alignment in bp
ns <- 84 # total number of transitions (23+30+10+21)
nv <- 6  # total number of transversions (1+0+2+0+2+1+0+0)

首先，需要对K80模型有个基本的认识：K80模型只有v和s两个参数，分别代表颠换率和转换率，如下表所示，应该有4种转换和8中颠换（下图(c)中右上角打错了，AG之间应该为s，而不是v）。

进化基因组学的统计理论与方法，谷迅 et al.。图(c)中右上角打错了，AG之间应该为s，而不是v。

log-likelihood函数可以表示为： $\log f(D|d, k)$ （在已知距离d和转换/颠换速率比值k的情况下，观测到数据集D的概率函数）
那么对于数据 $D =(n_s, n_v)$ ，在K80模型中，有如下表示

$\log f(D|d, k)=(n-n_s-n_v) \log(p_0/4)+n_s \log(p_1/4)+n_v \log(p_2/4)$

其中：
$p_0 = 1/4 + 1/4 \times e^{-4d/(k+2)} + 1/2 \times e^{-2d(k+1)/(k+2)}$
$p_1 = 1/4 + 1/4 \times e^{-4d/(k+2)} - 1/2 \times e^{-2d(k+1)/(k+2)}$
$p_2 = 1/4 - 1/4 \times e^{-4d/(k+2)}$

别问是怎么得来的，这就是K80模型的内容，要看具体推导可以看1980年kimura的论文

与此对应的，写成R的代码应该是：

# Kimura's (1980) likelihood for two sequences
k80.lnL <- function(d, k, n=948, ns=84, nv=6){
 
  p0 <- .25 + .25 * exp(-4*d/(k+2)) + 
        .5 * exp(-2*d*(k+1)/(k+2))
 
  p1 <- .25 + .25 * exp(-4*d/(k+2)) - 
        .5 * exp(-2*d*(k+1)/(k+2))
 
  p2 <- .25 - .25 * exp(-4*d/(k+2))
 
return ((n - ns - nv) * log(p0/4) +
        ns * log(p1/4) + nv * log(p2/4))
}

# 这里return的值就是log似然值了，这样看是不是明白许多

那么进一步，根据贝叶斯公式可以推导出后验概率（在观测到D数据集的情况下，参数d和k的概率分布，也就是我们最终想求的）：
$f(d,k|D)=\frac{1}{z}f(d)f(k)f(D|d,k) ~~~~~~~~~~~~~(1)$

这里的z是常态化常数(normalized constant)， $z=\int\int f(d)f(k)f(D|d,k)\,\mathrm{d}d\,\mathrm{d}k$
而 $f(d)$ 和 $f(k)$ 分别是对参数d和k施加的的marginal priors。也就是分别定义d和k概率分布的函数。在这里，我们对其施加gamma分布: $f(d)=\Gamma (d|2,20)$ , $f(k)=\Gamma(k|2,0.1)$ ，这两个参数的prior mean分别为2/20=0.1和2/0.1=20.

常数z是多重积分，基本上涉及多少个参数就是几重积分，所以很难解。其实以上各步骤都没有涉及到MCMC，都是贝叶斯的内容，而正是因为z这个边缘似然值很难解、错误率高，所以才引入了MCMC链来避免计算z值。

所以我们暂时放弃计算z值，那么根据(1)式，未常态化(un-normalized)的后验概率就应该是：
$\log (f(d)\times f(k)\times f(D|d,k)) ~~~$

现在就可以在R中把likelihood、prior和posterior画出来了，先设定一个参数网格:

dim <- 100  # dimension for the plot
d.v <- seq(from=0, to=0.3, len=dim) # vector of d values
##从0到0.3，长度为100。假设这两个物种最大分子距离不超过0.3，也就是序列差异不超过0.3，0-0.3都有可能。
k.v <- seq(from=0, to=100, len=dim) # vector of k values
##从0到100，长度为100。同理，假设这两个物种最大转换/颠换速率比不超过100，0-100都有可能。
dk <- expand.grid(d=d.v, k=k.v)
##画一个填满的网格
 
par(mfrow=c(1, 3))
#分面板，1列，每列三个面板

分别绘制三个面板的参数图：

# Prior surface, f(D)f(k)
Pri <- matrix(dgamma(dk$d, 2, 20) * dgamma(dk$k, 2, .1),
       ncol=dim)
##dgamma 密度gamma函数。两个gamma分布相乘，这两个分布分别就是f(d)和f(k)，这个相乘的结果就是f(d)f(k)，也就是先验了(prior)。
 
image(d.v, k.v, -Pri, las=1, col=heat.colors(50),
      main="Prior", xlab="distance, d",
      ylab="kappa, k", cex.main=2.0,
      cex.lab=1.5, cex.axis=1.5)
 
contour(d.v, k.v, Pri, nlev=10, drawlab=FALSE, add=TRUE)
 
# Likelihood surface, f(D|d,k)
lnL <- matrix(k80.lnL(d=dk$d, k=dk$k), ncol=dim)
##把之前设定的k80模型拿来用，输入拟定的d和k的向量

# for numerical reasons, we scale the likelihood to be 1
# at the maximum, i.e. we subtract max(lnL)
L <- exp(lnL - max(lnL))  
##把log-likelihood转化为likelihood。这里作者因为数字有点问题的原因，要把L控制在0-1之间。

 
image(d.v, k.v, -L, las=1, col=heat.colors(50),
      main="Likelihood", xlab="distance, d",
      ylab="kappa, k", cex.main=2.0,
      cex.lab=1.5, cex.axis=1.5)
 
contour(d.v, k.v, L, nlev=10,
        drawlab=FALSE, add=TRUE) # creates a contour plot
 
# Unscaled posterior surface, f(d)f(k)f(D|d,k)
Pos <- Pri * L
##f(d)f(k)就是prior，d(D|d,k)就是likelihood，两者都是之前算好了的，直接乘一起就是没有均一化/或者说常态化的后验概率(posterior)
 
image(d.v, k.v, -Pos, las=1, col=heat.colors(50),
      main="Posterior", xlab="distance, d",
      ylab="kappa, k", cex.main=2.0,
      cex.lab=1.5, cex.axis=1.5)
 
contour(d.v, k.v, Pos, nlev=10,
        drawlab=FALSE, add=TRUE)

image.png

一句话：unscaled posteriors=likelihood*priors。likelihood是模型的基础，prior影响likelihood，posterior是影响后的结果。

Part2 马尔可夫链蒙特卡罗方法 Markov chain Monte Carlo (MCMC)

尽管我们得到了posterior distribution，但是因为没有计算边缘似然常数z，所以要通过MCMC抽样来获得更加准确的posterior distribution。

MCMC算法的基本逻辑：
1、对参数d和k设置初始状态。
2、提出一个新的状态 d*提案（从一个合适的提案密度（proposal density）中得出）。
3、对这个新的状态的提案进行概率评估:

$\alpha=min \Big(1, \frac{p(d^*)p(k)p(D|d^*)}{p(d)p(k)p(D|d)}\Big)$

如果接受了提案（ $\alpha=1$ ），设定d=d*，否则d=d
4、现在d进行了一次状态检验，再对k进行一次，重复2-3.
5、储存目前状态的d和k。
6、回到第二步继续进行状态的提案。

Gamma分布公式： $\Gamma(x|a,b) = \frac{1}{\Gamma(a)}x^{a-1}e^{-bx}$
由于 $\Gamma(a)$ 是个常数，因此在第3步评估状态的时候会被消掉，所以在下面计算prior的时候也不必考虑了。

把part1中的代码重新梳理一遍：

# function returning the logarithm of the unscaled posterior:
# f(d) * f(k) * f(D|d,k)
# by default we set the priors as: 
# f(d) = Gamma(d | 2, 20) and f(k) = Gamma(k | 2, .1)
ulnPf <- function(d, k, n=948, ns=84, nv=6, a.d=2, b.d=20, 
        a.k=2, b.k=.1) {
  # The normalizing constant in the prior densities can 
  # be ignored:
  lnpriord <- (a.d - 1)*log(d) - b.d * d
  lnpriork <- (a.k - 1)*log(k) - b.k * k
  ##分别计算d和k的log-prior
  ##这里作者写的是log，但严格按照上文gamma分布公式对应应该是ln。其实无所谓，就是前面多一个常数比例，最后MCMC链里都会消掉的。
  ## ulnPf：unnormalized posterior 

  # log-Likelihood (K80 model):
  expd1 <- exp(-4*d/(k+2));
  expd2 <- exp(-2*d*(k+1)/(k+2))
  ##这里作者解释说，因为多了一步exp函数，所以运算会比part1快一些

  p0 <- .25 + .25 * expd1 + .5 * expd2
  p1 <- .25 + .25 * expd1 - .5 * expd2
  p2 <- .25 - .25 * expd1
  lnL <- ((n - ns - nv) * log(p0/4) + 
         ns * log(p1/4) + nv * log(p2/4))
   
  # Return unnormalised posterior:
  return (lnpriord + lnpriork + lnL)
  ## 这里就是加，不是乘，因为是ln
}

终于到了写MCMC的时候了：

mcmcf <- function(init.d, init.k, N, w.d, w.k) {
  # init.d and init.k ：初始d和k的状态
  # N ：MCMC重复次数
  # w.d ：d的sliding-window 提案的宽度
  # w.k ：k的sliding-window 提案的宽度
   
  # We keep the visited states (d, k) in sample.d and sample.k 
  # for easy plotting. In practical MCMC applications, these 
  # are usually written into a file.
  sample.d <- sample.k <- numeric(N+1)
  ##这就是个计数的作用，看看d和k经历了多少个循环，先设置这么多个空，后面再填上状态
 
  # STEP 1: Initialise the MCMC chain
  ## 第一步，启动MCMC链
  d <- init.d;  sample.d[1] <- init.d
  k <- init.k;  sample.k[1] <- init.k
  ulnP <- ulnPf(d, k)
  ## 这个是上一个block写好的ulnPf函数，输入b和k，输出log-posterior
  acc.d <- 0;  acc.k <- 0 # number of acceptances
  ## 对接受状态的次数进行计数
   
  for (i in 1:N) {
    # STEP 2: Propose new state d* 
    # we use a uniform sliding window of width w with reflection
    # to propose new values d* and k* 
    # propose d* and accept/reject the proposal
    ## 第二步： 提出一个新的状态d*，下面是用dprop表示的
    ## 使用sliding-window来进行状态的评估
    dprop <- d + runif(1, -w.d/2, w.d/2)
    ## 通过runif随机生成一个数值，这个数值位于设定的滑窗之内，所以不会太大也不会太小。使新的d*状态增加这个数值。
    # reflect if dprop is negative
    if (dprop < 0) dprop <- -dprop
    ## 如果不小心小于0了，取绝对值
     
    ulnPprop <- ulnPf(dprop, k)
    ## 计算新的d*提案下的log-posterior数值
    lnalpha <- ulnPprop - ulnP
    ## 判断是否接受新状态。ulnPprop > ulnP才接受状态提案，所以lnalpha>0接受提案。
    
 
    # STEP 3: Accept or reject the proposal
    # if ru < alpha accept proposed d*:
    ## 第三部：判断是否接受状态提案
    if (lnalpha > 0 || runif(1) < exp(lnalpha)){
    ## 这个runif什么作用我没看懂，难道是允许存在一定的干扰和偏差？
      d <- dprop;  ulnP <- ulnPprop; 
      acc.d  <- acc.d + 1
    }
    # else reject and stay where we are (so that nothing needs 
    # to be done).
     
    # STEP 4: Repeat steps 2-3 for k
    # propose k* and accept/reject the proposal
    ## 第四步：对参数 k 重复同样的动作
    kprop <- k + runif(1, -w.k/2, w.k/2)
    # reflect if kprop is negative
    if (kprop < 0) kprop <- -kprop
     
    ulnPprop <- ulnPf(d, kprop)
    lnalpha <- ulnPprop - ulnP
    # if ru < alpha accept proposed k*:
    if (lnalpha > 0 || runif(1) < exp(lnalpha)){
      k <- kprop;  ulnP <- ulnPprop
      acc.k  <- acc.k + 1
    }
    # else reject and stay where we are.
     
    # STEP 5: Save chain state
    ## 第五步： 储存链的状态
    sample.d[i+1] <- d;  sample.k[i+1] <- k
  }
   
  # print out the proportion of times
  # the proposals were accepted
  print("Acceptance proportions (d, k):")
  print(c(acc.d/N, acc.k/N))
   
  # return vector of d and k visited during MCMC
   
  return (list(d=sample.d, k=sample.k))
  ##输出状态列表
}

现在来测试一下mcmc链，设置init.d=0.2（初始分子距离为0.2）, init.k=20（初始转换/颠换速率比kappa为20）, N=1e4（重复10000次）, w.d=0.12（d的window宽为0.12）, w.k（k的window宽为180）：

# Test run-time:
## 可以在自己电脑上测试一下重复一万次用了多少时间，我这台Mac pro A1708大概0.13秒。
system.time(mcmcf(0.2, 20, 1e4, .12, 180)) 

# Run again and save MCMC output:
## 储存结果
dk.mcmc <- mcmcf(0.2, 20, 1e4, .12, 180)

现在进行trace plot，看看参数状态随着MCMC链的变化：

par(mfrow=c(1,3))
 
# trace plot of d
plot(dk.mcmc$d, ty='l', xlab="Iteration", ylab="d", 
     main="Trace of d")
 
# trace plot of k
plot(dk.mcmc$k, ty='l', xlab="Iteration", ylab="k", 
     main="Trace of k")
 
# We can also plot the joint sample of d and k
# (points sampled from posterior surface)
plot(dk.mcmc$d, dk.mcmc$k, pch='.', xlab="d", ylab="k", 
     main="Joint of d and k")

参数d、k和联合dk的状态变化图（trace plot）。如果再记录一个log-posterior

如图所示，MCMC链后期的参数混合比较好（图中看起来变化比较大是因为比例尺和窗口大小设置的问题）。其实可以发现，d和k的联合作图做出来的和之前我们画的prior图基本一致，从公式上来说都是 $f(d)f(k)$ ，观测值比较符合我们预期的概率分布。右边log-likelihood也可以看出最佳的后验概率。

Part3 评估MCMC链的效率

作者语：
MCMC链是自相关的(autocorrelated)，因为任何一个状态要么是前一个状态变化而来的，要么就是前一个状态没变。从直觉上我们会想，一条MCMC链的效率与其自相关程度是密不可分的，它越是自相关，效率就越低，就要花更多时间去使其收敛以得到较好的后验概率分布。

现在定义一条MCMC链的效率为：
$\mathrm{eff} = 1 / (1 + 2(r_1 + r_2 + r_3 + ...))$
$r_i$ 为滞后 $_i$ 时间之后，两者之间的自相关系数。总而言之，这是一个时间序列的自相关函数，两次观测时间相隔越近（也是就是 $_i$ 越小），自相关应该越高，相隔越大（也就是 $_i$ 越大），自相关越低，是一个衰减的序列。

关于自相关可以来这里补课：
https://blog.csdn.net/yuting_sunshine/article/details/95317735

以下使用R语言的acf函数来计算自相关系数并绘制自相关图：

# run a very long chain (1e6 generations take about
# 40s in my MacBook Air) to calculate efficiency
dk.mcmc2 <- mcmcf(0.2, 20, 1e7, .12, 180)

# R's acf function (for AutoCorrelation Function) 
par(mfrow=c(1,2))
acf(dk.mcmc2$d)
acf(dk.mcmc2$k)
## 使用acf函数计算一组数据的自相关

# Define efficiency function
eff <- function(acf) 1 / (1 + 2 * sum(acf$acf[-1]))
## 定义efficiency函数

# the efficiencies are roughly 22% for d and 
# 20% for k:
# [1] 0.2255753 # mcmcf(0.2, 20, 1e7, .12, 180)
eff(acf(dk.mcmc2$d))
# [1] 0.2015054 # mcmcf(0.2, 20, 1e7, .12, 180)
eff(acf(dk.mcmc2$k))

跑出来长这样：

ACF自相关图

这张图表明了随着时间间隔的延长，两次计算之间的自相关性下降。下降得越快越好。再根据效率函数计算出k和d在重复1e7次后的链的效率在0.2左右。这意味着这条链的抽样模拟效果几乎相当于0.2*N个独立样本拟合后的计算结果（真的有这么靠谱吗......）。作者语：20%效率的链就算非常高效了。

这就是计算有效样本大小(effective sample size, EFF)的公式：

$\mathrm{EFF=N* eff}$

另一方面，由于MCMC链的自相关度很高，在处理结果的时候可以间隔取值，以去除高自相关的iteration，这样又可以节省磁盘空间又可以保留信息量。‘

效率低的链

效率低的链可能是由于状态提案密度较低，或者是由于过度设置复杂参数导致后验概率复杂。
什么情况下会出现效率低的链呢？作者聚了两个例子，我简单描述一下。
第一，比如说 $d$ 和 $k$ 的步长设置得不合适。比如说d作为分子距离，是在0-1之间的，而设置3就会使链堵住。k作为转换/颠换速率比，应该是比较大的，如果设置每次变动5以内，就会效率太低（作者原话叫baby-sized steps）。如此计算得到这两条链的eff大概为1.5%和0.3%。比如下图的情况：

右侧两图d与k步长设置不合理

自相关总是不为0，只有在几个点才是0。这是糟糕的链。

作者建议在调整sliding-windows步长的时候，使最后状态的接受率在30%左右。

Part4 如何判断MCMC链已经收敛

这里涉及到一个burn-in的概念，其实很简单。就是MCMC链在收敛的过程中，最初给定的初始值一般是不合适的，因此要把初始一定范围内的接受状态去除掉。

举个例子，这是分别设置较高和较低初始值的结果：

dk.mcmc.l <- mcmcf(0.01, 20, 1e4, .12, 180)
dk.mcmc.h <- mcmcf(0.4, 20, 1e4, .12, 180)

plot(dk.mcmc.l$d, xlim = c(1,200), ylim = c(0,0.4), ty = "l")
lines(dk.mcmc.h$d, col="red")

# We use the low chain to calculate the mean
# and sd of d. We could have used the high chain
# as well.
mean.d <- mean(dk.mcmc.l$d)
sd.d <- sd(dk.mcmc.l$d)
abline(h = mean.d + 2 * c(-sd.d, sd.d), lty = 2)

不同初始值的收敛情况

作者语：判断MCMC链有没有收敛的最简单方法就是多跑几条链，然后看他们的95% CI、后验均值和histogram等是不是相似。

高效率链（左）和低效率链（右）的参数k密度分布图。高效的链收敛快、两次run的重合度高，而低效链恰恰相反。

也可以计算后验均值和标准误：

# posterior means (similar for efficient chains):
mean(dk.mcmc$d); mean(dk.mcmc.b$d)
mean(dk.mcmc$k); mean(dk.mcmc.b$k)

# posterior means (not so similar for the inefficient chains):
mean(dk.mcmc3$d); mean(dk.mcmc3.b$d)
mean(dk.mcmc3$k); mean(dk.mcmc3.b$k)
## 计算后验均值

# efficient chain, standard error of the means
sqrt(1/1e4 * var(dk.mcmc$d) / 0.23) # roughly 2.5e-4
sqrt(1/1e4 * var(dk.mcmc$k) / 0.20) # roughly 0.2

# inefficient chain, standard error of the means
sqrt(1/1e4 * var(dk.mcmc3$d) / 0.015) # roughly 9.7e-4
sqrt(1/1e4 * var(dk.mcmc3$k) / 0.003) # roughly 1.6
##计算标准误，其中var()函数计算的是variance，即MCMC样本之间的差值除以样本量（抽样次数）

最后：如果模型太过复杂，一定要多跑几条链并且通过差别比较大的初始值来判断是否收敛。R语言coda包中的gelman.diag可以诊断MCMC链的收敛。

感谢Fabricia Nascimento、Mario dos Reis和Ziheng Yang老师们的教程，花了一整天，终于搞懂了

在R语言中实现贝叶斯-MCMC（核酸替换速率和分子距离）
主要参考资料：来自帝国理工学院的副研究员 Fabricia Nascimento的教程网站https://thed...
变分推断
变分推断（Variational Inference）一文读懂贝叶斯推理问题：MCMC方法和变分推断
分子进化理论（11）蛋白质进化速率
进化速率进化速率既可指分子的进化速率（蛋白质或核酸等大分子中的氨基酸或核苷酸在一定时间内的替换率），也可指某一类...
朴素贝叶斯法
朴素贝叶斯法朴素贝叶斯法的学习与分类朴素贝叶斯法的参数估计朴素贝叶斯实现高斯朴素贝叶斯实现使用 skle...
R语言中的Stan概率编程MCMC采样的贝叶斯模型
原文链接：http://tecdat.cn/?p=11161 概率编程使我们能够实现统计模型，而不必担心技术细节。...
R语言：朴素贝叶斯算法实现对中文垃圾邮件的分类
本期主要是实操在R语言中如何使用朴素贝叶斯算法实现对中文垃圾邮件的分类，并尝试优化模型分类效果。本文中所用到的数据...
Beast v1.8简易手册
Beast是用来进行贝叶斯MCMC分析的一系列合集软件，其主要组成程序有BEAUti、BEAST、Tracer...
Flink实现高斯朴素贝叶斯
Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯，在spark的ML里也实现了多项式的朴素贝叶...
[译] 第三章 MCMC
黑客级概率程序设计和贝叶斯方法揭开MCMC的神秘面纱前面两章对读者隐藏了PyMC的内部机制，也就是Markov...
2019-01-28
1 了解高斯分布贝叶斯，多项式贝叶斯伯努力贝叶斯的区别和应用场景 A B 贝叶斯算法：（在各个特征独立...

在R语言中实现贝叶斯-MCMC（核酸替换速率和分子距离）

Part1：计算似然值likelihood、先验prior和后验分布posterior distribution（un-normalized非常态化的）（为避免歧义，下面的部分术语还是用英文）

Part2 马尔可夫链蒙特卡罗方法 Markov chain Monte Carlo (MCMC)

Part3 评估MCMC链的效率

效率低的链

Part4 如何判断MCMC链已经收敛

相关文章

在R语言中实现贝叶斯-MCMC（核酸替换速率和分子距离）

变分推断

分子进化理论（11）蛋白质进化速率

朴素贝叶斯法

R语言中的Stan概率编程MCMC采样的贝叶斯模型

R语言：朴素贝叶斯算法实现对中文垃圾邮件的分类

Beast v1.8简易手册

Flink实现高斯朴素贝叶斯

[译] 第三章 MCMC

2019-01-28

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

分子进化——Ziheng Yang老师

R bayes

比较与进化基因组学

贝叶斯-MCMC