第二周

作者: 个革马 | 来源:发表于2018-07-06 13:58 被阅读3次
文本挖掘与分析概述图 文本数据与非文本数据结合 主题模型两大任务
  • 发现K个主题
  • 计算每个文档包含哪些主题
常规形式化定义主题模型 概率主题模型

此处引入了单词集,用来计算各主题的词分布。

主题分布例子 文本挖掘的生成模型

通过调整模型的参数,使得生成数据的条件概率最大。


可以用最大似然法或贝叶斯估计找到最优值。

参数估计办法
  • MLE最大似然估计--缺点:数据太小的时候容易对模型参数估计有偏差
  • MAE贝叶斯推断--缺点:需要知道先验分布
贝叶斯推断示例

相关文章

网友评论

    本文标题:第二周

    本文链接:https://www.haomeiwen.com/subject/yervuftx.html