LDA 与 LSA、PLSA、NMF相比

作者: chaaffff | 来源:发表于2017-09-16 08:14 被阅读0次

LDA 与 LSA、PLSA、NMF相比
LDA模型分析（三）：LDA建模与求参
LDA 与PLSA
04 主题模型 - NMF
06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义
LSA,LDA,LRA
07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta
用Mxnet实现矩阵分解
LDA 和 LSI 聚类效果比较
LDA模型分析（二）：pLSA建模与求参

“pLSA模型的作者Thomas Hoffmann提出的机器学习算法是EM。EM是各种机器学习inference算法中少数适合用MapReduce框架描述的——map phase用来推测（inference）隐含变量的分布（distributions of hidden variables），也就是实现E-step；reduce phase利用上述结果来更新模型，也即是M-step。

但是2008年的时候，pLSA已经被新兴的LDA掩盖了。LDA是pLSA的generalization：一方面LDA的hyperparameter设为特定值的时候，就specialize成pLSA了。从工程应用价值的角度看，这个数学方法的generalization，允许我们用一个训练好的模型解释任何一段文本中的语义。而pLSA只能理解训练文本中的语义。（虽然也有ad hoc的方法让pLSA理解新文本的语义，但是大都效率低，并且并不符合pLSA的数学定义。）这就让继续研究pLSA价值不明显了。”

另外，

NMF：一种矩阵分解，要求输入矩阵元素非负，目标和 SVD 一样。

pLSA：SVD 的一种概率解释方法——要求矩阵元素是非负整数。

LDA：pLSA 加上 topics 的 Dirichlet 先验分布后得到的 Bayesian model，数学上更漂亮。为什么是 Dirichlet 先验分布，主要是利用了 Dirichlet 和 multinomial 分布的共轭性，方便计算。

google在07年左右或者更早的时候就抛弃pLSA转向LDA了吧。pLSA只能对训练样本中进行语义识别，而对不在样本中的文本是无法识别其语义的。而LDA能。

目前LDA的挑战主要在于长尾分类这块，Google推出Rephil解决这个问题,借此Google Adsense的收入占谷歌总收入的50%以上。