美文网首页每天学点机器学习
LDA 和 LSI 聚类效果比较

LDA 和 LSI 聚类效果比较

作者: chaaffff | 来源:发表于2017-09-15 23:05 被阅读102次

    LDA独立性假设太强了,经常不是很work,而且跑起来太慢。但是数学上比较完备,模型漂亮。工程上可以用PLSA

      LDA的独立性假设不算很强吧,毕竟是条件独立。主要的假设其实是可交换性。由de Finetti's theorem,其实隐含变量下的条件独立性假设就不是很强了(虽然存在不意味着能找到)。

      我这边使用LDA很爽快,虽然说优化的过程很折磨人,我们公司使用LDA模型对全网文本建立了分类模型

    LDA(latent dirichlet allocation) 应该会好很多。LSI 虽然很简单,但是有一个不太合理的假设是各个topic是互相垂直的向量,结果是得到的类比较难有明确的意义。LSI用来降维因该还行。

    另外有一种LDA(Linear discriminant analysis)效果应该比PCA好些,但是需要有标注的数据

    LDA的效果实际中看来更好,但LDA的收敛速度会比LSA慢。LSA通常是用其他算法的预处理分类中,很少单独使用。

    LDA从模型角度老说,是无监督算法(聚类算法),但是如果仅仅把LDA作为聚类模型来使用,我觉得就有点杀鸡用牛刀的感觉了,我对LDA的看法是:天生的适合大数据环境下的文本分类算法

    PLSI不错,LDA适合发论文

    相关文章

      网友评论

        本文标题:LDA 和 LSI 聚类效果比较

        本文链接:https://www.haomeiwen.com/subject/cwgesxtx.html