“pLSA模型的作者Thomas Hoffmann提出的机器学习算法是EM。EM是各种机器学习inference算法中少数适合用MapReduce框架描述的——map phase用来推测(inference)隐含变量的分布(distributions of hidden variables),也就是实现E-step;reduce phase利用上述结果来更新模型,也即是M-step。
但是2008年的时候,pLSA已经被新兴的LDA掩盖了。LDA是pLSA的generalization:一方面LDA的hyperparameter设为特定值的时候,就specialize成pLSA了。从工程应用价值的角度看,这个数学方法的generalization,允许我们用一个训练好的模型解释任何一段文本中的语义。而pLSA只能理解训练文本中的语义。(虽然也有ad hoc的方法让pLSA理解新文本的语义,但是大都效率低,并且并不符合pLSA的数学定义。)这就让继续研究pLSA价值不明显了。”
另外,
NMF:一种矩阵分解,要求输入矩阵元素非负,目标和 SVD 一样。
pLSA:SVD 的一种概率解释方法——要求矩阵元素是非负整数。
LDA:pLSA 加上 topics 的 Dirichlet 先验分布后得到的 Bayesian model,数学上更漂亮。为什么是 Dirichlet 先验分布,主要是利用了 Dirichlet 和 multinomial 分布的共轭性,方便计算。
google在07年左右或者更早的时候就抛弃pLSA转向LDA了吧。pLSA只能对训练样本中进行语义识别,而对不在样本中的文本是无法识别其语义的。而LDA能。
目前LDA的挑战主要在于长尾分类这块,Google推出Rephil解决这个问题,借此Google Adsense的收入占谷歌总收入的50%以上。
网友评论