gensim话题模型初体验

作者: 朱小虎XiaohuZhu | 来源:发表于2014-12-31 17:17 被阅读4823次

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

第一眼

需要导入三个包包,后面一定会用到这些东西

from gensim import corpora, models, similarities

语料corpora就是一系列文档的集合,其中的词已经使用了字典进行相应的转换,成为一个个数字,我们可以通过字典的对应关系从数字找到对应的词。语料中的每个项对应着每一篇使用稀疏向量表示的文档。后面我们会谈谈何为向量空间模型(Vector Space Model)。如果你熟悉向量空间模型,你可能已经知道了是如何parse文档的方式,分词的好坏直接影响到后续的应用。

在例子中,会将所有的语料都以一个python list的形式存放在内存中。然而,gensim支持对文档进行读取迭代。对很大的语料,当然将其存放在硬盘上更加合适,并顺序地进行读取,一次一个。gensim的实现方式正是使用了这样的方式,独立于语料的规模和内存。

首先,我们初始化一个转换(transformation):

tfidf = models.TfidfModel(corpus)

转换的作用是将
从一个矩阵存储的文件载入语料迭代器

corpus = corpora.MmCorpus('/path/to/corpus.mm')

初始化Latent semantic indexing,话题数设置为200,也就是潜在的维度数是200

lsi = models.LsiModel(corpus, num_topics=200)

将另外一个语料库转换成潜在空间并且索引这个空间

index = similarities.MatrixSimilarity(lsi[another_corpus])

计算查询和索引文档的相似性

sims = index[query]

主要通过本文梳理清楚使用LDA和LSI的基本流程,对于LDA相关的基础知识需要花一定的时间来学习。比如说概率图模型,Gibbs Sampling,MCMC。其实使用起来自然很简单,就是获得一个最终的分布而已。但是真正弄个清楚还是需要比较强的统计学和算法的基础。之前在学习过程中,系统地学习过了MCMC,对于其中设计的一系列证明也是推导过。不过那时候还没有很直观的了解,直到现在使用了MCMC来解决LDA的计算问题才发现它厉害的地方。现在网上有不少对LDA的介绍,也会涉及LSI,大家感兴趣可以去看看。
我最近在翻译一本书,也是关于这个的,那本书介绍了一个python的库PyMC,大家一看就知道了,MC,Markov chain。想象计算机发明之初,最原始的目标就是用来进行统计模拟。这才是计算机发展的原动力啊!

相关文章

  • gensim话题模型初体验

    Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist...

  • LDA模型伪代码块

    Gensim的基本用法 Gensim非常适合用来实现各种文本模型、主题模型,包括tf-idf模型、LSI模型以及L...

  • 【Gensim训练Word2Vec】参数详解

    用gensim函数库训练Word2Vec模型有很多配置参数。 这里对gensim文档的Word2Vec函数的参数说...

  • Pytorch 词向量训练

    说明 对于词向量的训练,常用的有如gensim库下提供的word2vec模型,后面会简单的示例gensim库下该模...

  • gensim使用指南

    最近因为比赛的关系用到gensim很多,总结一下。 TF-IDF模型使用 模型生成与保存 模型恢复 语义相似度计算...

  • word2vec & doc2vec

    word2vec 训练结果测试 模型保存和加载 如果模型训练完成(不再更新),可以在wv中转换gensim.mod...

  • gensim做主题模型

    我调用了结巴分词做中文处理,所以同样 手工写个文本列表 回到过程中来,将范例的语句分词 输出: 得到的分词结果构造...

  • Python gensim库word2vec 基本用法

    ip install gensim安装好库后,即可导入使用: 1、训练模型定义 参数解释: 0.sentences...

  • 基于 Gensim 的 Word2Vec 实践

    模型创建 Gensim中 Word2Vec 模型的期望输入是进过分词的句子列表,即是某个二维数组。这里我们暂时使用...

  • gensim TF-IDF模型中文关键词抽取

    模型:gensim工具包TF-IDF模型 维基百科语料数据(30万词条)+百度百科(500万) 利用jieba分词...

网友评论

  • Cer_ml:博主翻译的关于MCMC的书在哪里可以看到?

本文标题:gensim话题模型初体验

本文链接:https://www.haomeiwen.com/subject/mjuatttx.html