Welcome To My Blog
作为LDA的预备知识,Dirichlet Multinomial共轭结构很重要,在介绍这个共轭结构之前,先介绍一下将会用到的相关概念
一.Gamma 函数
Gamma函数定义:
![](https://img.haomeiwen.com/i9608551/19dd3611014b4449.png)
分部积分后可得:
![](https://img.haomeiwen.com/i9608551/022c964076a451d5.png)
不断展开等式右边,进而有:
![](https://img.haomeiwen.com/i9608551/bfd9604547712884.png)
Bohr-Mullerup定理:
如果f:(0,∞)→(0,∞),且满足:f(1)=1;f(x+1)=xf(x);log(f(x))是凸函数,那么唯一满足以上条件的就是Γ(x)
Gamma函数图像(from Wikipedia):
![](https://img.haomeiwen.com/i9608551/d671cdb6cc29bbf9.png)
复平面上的Gamma函数(from Wikipedia):
![](https://img.haomeiwen.com/i9608551/a4a7785ecc0badbc.png)
如何下函数被称为Digamma函数:
![](https://img.haomeiwen.com/i9608551/714da680527edbb7.png)
这是个很重要的函数,在求Dirichlet分布相关的参数的极大似然估计时往往用到该函数
Digamma函数具有如下性质
![](https://img.haomeiwen.com/i9608551/a69cc5479512a4dd.png)
二.Beta Binomial共轭
在贝叶斯统计中,如果后验分布与先验分布属于同分布,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验.
Beta分布是Binomial分布的共轭先验
Beta分布
![](https://img.haomeiwen.com/i9608551/af749f174ca0a672.png)
可以通过推导n个独立产生于同一个均匀分布的数字中第k大数字的过程推导出Beta分布,具体可参考靳志辉老师的LDA数学八卦
Beta分布的期望:
![](https://img.haomeiwen.com/i9608551/18a8c2834cef9508.png)
![](https://img.haomeiwen.com/i9608551/473bc02b0326d09f.png)
Beta分布(from Wikipedia)
PDF:probability density function(概率密度函数)
![](https://img.haomeiwen.com/i9608551/09494c29a5fc9eb1.png)
因为Beta分布可以拟合多种曲线,所以被广泛使用
二项分布
n是总的试验次数,p是实验成功的概率,k是实验成功的次数
Probability mass function:
![](https://img.haomeiwen.com/i9608551/df0cfb91ca0a4775.png)
Beta Binomial共轭
按照贝叶斯推理的过程引出Beta-Binomial共轭:
- p是要猜的参数,假设p的先验分布为Beta分布,即
10.png
- 现有m个数字,知道这m个数字与p的大小关系,其中有m1个数字比p小,m2个数字比p大(m1+m2=m).可知这m个数字与p的大小关系是二项分布(Binomial Distribution)的一个观察值
- 那么根据m1和m2这个经验,我们便可以得到p的后验分布(证明过程可参考靳志辉老师的LDA数学八卦,并不复杂)
11.png
后验分布和先验分布都是Beta分布,只不过是参数变了,所以Beta分布式二项分布的共轭先验.
实际上,第一步也可以假设p服从其它分布,只不过因为观察值服从二项分布,所以假设p为Beta分布后,p的后验概率也服从Beta分布,方面计算
三.Dirichlet Multinomial共轭
Dirichlet分布
![](https://img.haomeiwen.com/i9608551/1888464f88355ee6.png)
Beta分布就是Dirichlet分布的参数n=2时的情况
Dirichlet分布的期望:
![](https://img.haomeiwen.com/i9608551/0f92d3be43897145.png)
或者
![](https://img.haomeiwen.com/i9608551/08d06e7d4e3aea6e.png)
Dirichlet分布(from Wikipedia)
dirichlet-distribution:
![](https://img.haomeiwen.com/i9608551/44eac7aedc9e0d54.png)
LogDirichletDensity-alpha_0.3_to_alpha_2.0
在LDA中用的主要是α<1的对称Dirichlet分布
![](https://img.haomeiwen.com/i9608551/99f2acf0a081f039.gif)
Multinomial 分布
多项分布是二项分布的推广,举例来说,多项分布建模的是这一问题:有一个k个面的骰子,投掷一次结果是第i的面概率是pi,现独立地投掷n次,结果是第i个面的有xi次,多项分布就是给出了投掷n次后各种结果的概率公式
Probability mass function:
![](https://img.haomeiwen.com/i9608551/7d8501965f170945.png)
Binomial分布就是Multinomial分布的n=2时的情况
Dirichlet Multinomial共轭
类似Beta Binomial共轭的贝叶斯推理:
- (p1,p2,...pn)是要猜的参数,假设(p1,p2,...pn)的先验分布为Dirichlet分布
- 现有n个数字(x1,x2,...,xn),知道这n个数字与(p1,p2,...pn)的大小关系,其中有c1个数字比p1小,c2个数字比p1大同时比p2小,cn个数字比p_(n-1)大同时比pn小.这n个数字与(p1,p2,...pn)的大小关系是多项分布的一个观察值
- 根据(c1,c2,...,cn)这个经验,可以得到(p1,p2,...pn)的后验分布
19.png
参考:靳志辉,LDA数学八卦
网友评论