基于LDA的主题分析模型

基于LDA的主题分析模型

作者: 拾荒巴菲特 | 来源:发表于2017-05-12 10:02 被阅读667次

基于LDA的主题分析模型
07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta
10 主题模型 - 代码案例一 - LDA主题模型初识
08 特征工程 - 特征降维 - LDA
个性化推荐典型任务与传统算法
pyspark 文本主题模型LDA
词典构造方法之LDA主题模型
LDA临时笔记，待整理
LDA主题模型
LDA主题模型

Wikipedia
In natural language processing, latent Dirichlet allocation (LDA) is a generative statistical model that allows sets of observations to be explained by unobserved groups that explain why some parts of the data are similar

LDA模型的作者之一是前百度人工智能首席科学家吴恩达(Andrew Ng), 网上可以找到大量他在Standford和Coursera录制的机器学习课程。通常来说, LDA可以用于从海量的文本中，根据统计模型，自动提取出由关键词组成的热门主题，让我们快速知道，这些大量无规则的文本中，主要讲述了什么内容。

下面我们尝试一下，LDA模型可以在主题分析模型中做到什么程度。

我们采用12345项目中的电话工单数据作为测试数据，测试数据如下。每一条工数据都代表12345热线服务中接到的电话诉求，总共有一万多条数据。

测试数据

我们需要对这些海量数据分词处理，将词组向量化，生成词包，生成语料库，训练LDA主题模型。技术细节就不再赘叙了，有兴趣可以参考Gensim这个算法包，里面有详细的LDA模型实现细节和代码示例，可以大大简化工作量。

传送门直接跳到分析结果, 我们输出了前20的热点主题：

LDA主题

LDA模型生成的主题比较容易理解, 其中：
第一个是关于小区车辆安全隐患的诉求。
第二个是拆迁问题的投诉。
第三个是拆除违章建筑的投诉。
第八个是要求取缔流动摊贩占道经营。
反映出12345的工单主要都是在民生方面的诉求，和12345市民热线本身的定位非常符合。

模型的优化：
从结果中可以看出，有一些词没有特别大的意义，但在结果中占比较高，影响到了主题模型的权重判断，因此在分词，抽取关键词，生成词包的过程中，可以维护一个停用词列表，将不想投入模型计算的一些高频词过滤掉，提高模型提取的准确率。

相关文章

基于LDA的主题分析模型
WikipediaIn natural language processing, latent Dirichlet...
07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta
06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型为了讲后续的LDA算法，需要补充一点数学...
10 主题模型 - 代码案例一 - LDA主题模型初识
08 主题模型 - LDA09 主题模型 - LDA参数学习-Gibbs采样安装 lda 库使用第三方的lda库...
08 特征工程 - 特征降维 - LDA
线性判断分析(LDA)： LDA是一种基于分类模型进行特征属性合并的操作，是一种有监督的降维方法。 LDA原理 L...
个性化推荐典型任务与传统算法
典型任务和算法（模型） 1.相似匹配（基于内容） 1.1 标签匹配 1.2 LDA主题模型 2.评分预测 2.1....
pyspark 文本主题模型LDA
LDA：隐狄利克雷分配，常用于文本主题模型（主题分类、聚类）。注意LDA也是线性判别分析的缩写参考一篇文章：ht...
词典构造方法之LDA主题模型
词典构造方法之LDA主题模型主题模型LDA原理理解 LDA是一种非监督学习技术，可以用来识别大规模文档集（doc...
LDA临时笔记，待整理
学习建议：从大方向上把握LDA 1、先了解主题模型的历史可以通过了解主题模型的历史，从基于统计学分布的一元模型，...
LDA主题模型
LDA数学八卦学习笔记数学知识 Gamma函数 Gamma函数的性质其可以看作阶乘在实数集上的扩展 Gamma分...
LDA主题模型
JGibbLDA是Java版本的LDA算法，可以通过命令行的方式使用，也可以通过通过调用LDACmdOption中...

网友评论

本文标题：基于LDA的主题分析模型

本文链接：https://www.haomeiwen.com/subject/jdkztxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|基于LDA的主题分析模型|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！