美文网首页
无监督第五节:LDA (Latent Dirichlet All

无监督第五节:LDA (Latent Dirichlet All

作者: 数据小新手 | 来源:发表于2020-05-01 17:37 被阅读0次

1.算法实现

LDA是生成式概率模型。基本的观点是一个文档由多个隐主题生成,每个主题是由单词的分布式表达。

LDA假设在语料库D中每个文档的生成过程如下:

  1. 选择 N ∼ Poisson(ξ).

  2. 选择θ∼Dir(α).

  3. 对于每个 N 单词 w_n:

    (a) 选择一个主题 z_n ∼ Multinomial(θ).
    (b) 选择单词 w_n from p(w_n |z_n,β), 基于主题z_n的多项式分布.

1.1一些简化的假设:

1.主题数量k已知

2.单词的概率由参数\beta控制

1.2狄利克雷分布的形式为:

P(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^k\alpha_i)}{\prod_{i=1}^k\Gamma(\alpha_i)}\theta_1^{\alpha_1-1}...\theta_k^{\alpha_k-1}
参数\alpha 是一个k 维的向量,并且每个元素大于0,\Gamma(x) 服从Gamma 分布

1.3 求解过程

已知参数\alpha 和\beta, 联合分布主题混合的参数\theta, 表示主题的参数 z,表示文档的参数w:

image-20200419143925096.png

\theta 积分,并对z求和得到关于文档的边缘分布:

image-20200419144328667.png

所有文档的边缘分布相乘,得到整个语料库的概率:

image-20200419144457685.png

1.4LDA模型图示:

image-20200419144527514.png

参数\alpha 和参数\beta是语料库级别的参数,在生成语料库的过程中使用。

变量\theta_d是文档级别的参数,每个文档采样一次。

变量z_{dn}w_{dn}是单词级别的参数,每个文档中每个单词都采样一次.

1.5LDA和可交换性

一组随机变量如果联合分布和变量的排列顺序无关,则称这组变量是可交换的。

image-20200419145831191.png

在LDA中,我们假设单词是由主题生成的,并且这些主题在文档中是无限可交换的,

image-20200419145941417.png

其中\theta 是关于主题多项式分布的随机变量。

`.6连续混合一元语法

通过对隐主题变量z积分。可以得到单词分布:


image-20200419150525531.png

这是一个随机量,因为他依赖于\theta

我们定义接下来的生成过程, 对于一个文档w

1.选择θ∼Dir(α)

2.对于每个N的单词w_n:

(a)从p(w_n|\theta,\beta)中选择一个单词w_n

这个过程定义一篇文档的边缘分布看成一个连续的混合分布

image-20200419185155157.png

2.预测和参数估计

2.1.inference:

inference的关心的问题使用LDA来计算隐变量z的后验分布:


image-20200419195544004.png

这个分布通常很难计算。通过normaliza 分布,并且计算边缘分布。

image-20200419195802087.png

这个后验分布很难计算,但是通过一些变分推断的方法还是可以得到。

2.2 variational inference

基本的观点是使用jensen's 不等式来获得一个调整的下界,变分参数通过优化过程来试图找到最接近的可能的下界。

image-20200419200233330.png

一个简单的方式是通过鲜花原始的计算图,将一些边和节点移去。在LDA中,原始的图是左图,通过把\theta,\beta 和w 移去,生成右边含有自由变分参数的图。
新的计算图使用如下变分分布:

image-20200419201115115.png

\gamma 是狄利克雷参数,多项式参数(φ1 , . . . , φN ) 是自由变量参数。

得到简化的概率分布后,下一步是开始的优化问题是决定变分参数\gamma和\phi的值。

image-20200419211508956.png

优化这个变分参数是通过最小化KL散度来实现,并且吧他们设为0,得到以下的更新参数。

image-20200419211615228.png

在文本的语言中,优化参数 \gamma和\phi 是文档制定的。特别的,我们认为狄利克雷参数\gamma是一个文档的主题表达。

image-20200419212039943.png

2.3参数估计方法:

经验贝叶斯方法来估计LDA中的参数。给定一个语料D,我们希望找到参数\alpha,\beta来最大化边缘似然概率:

image-20200419212246280.png

计算p(w|\alpha,\beta) 比较困难,可以通过变分EM算法来估计。

1.E step,对于每个文档,找到最优的变分参数{\gamma_d,\phi_d}

2.M step, 最大化结果的下界。

重复上述几步直到下界收敛。

相关文章

网友评论

      本文标题:无监督第五节:LDA (Latent Dirichlet All

      本文链接:https://www.haomeiwen.com/subject/yqvpbhtx.html