gensim #2 迭代计算

gensim #2 迭代计算

作者: 平仄_pingze | 来源:发表于2018-05-18 19:41 被阅读12次

gensim #2 迭代计算
gensim
gensim word2vec工具怎么用？
gensim Intel MKL FATAL错误
基于 Gensim 的 Word2Vec 实践
【Gensim训练Word2Vec】参数详解
Python gensim Word2Vec tutorial
Similarity Queries for Security
逻辑回归及梯度下降（代码）
gensim计算文档相似度

关于文档转向量、计算相似度这些算法，许多经典的库中都有，比如sklearn就可以实现#1中的整个流程。

gensim的优势在于2点：

所有向量使用稀疏表示，占用内存小得多。
支持结合Python的迭代计算，内存友好。

下面展示如何迭代完成#1中的过程：

// 假设数据来自MongoDB
// 有一个库db_name，内有集合collection_name，每个文档都有一个字段doc，表示文字字符串
import gensim
from pymongo import MongoClient

connection = MongoClient()
collection = connection.db_name.collection_name

# mongoDB原生支持迭代查询，对Python很友好
# cursor = collection.find()

dictionary = gensim.corpora.Dictionary(doc.get('doc').split() for doc in collection.find())

# 创建一个生成器
def iter_vectors():
    for doc in collection.find():
        yield dictionary.doc2bow(doc.get('doc'))

model_tfidf = gensim.models.TfidfModel(iter_vectors(), id2word=dictionary)

index_tmp_file = '/tmp/gensim/test'
index = gensim.similarities.Similarity(
    index_tmp_file,
    model_tfidf[iter_vectors()],
    num_features=len(dictionary)
)

for similarity in index:
  # 这里输出#1中相似度矩阵的每一行
  print(similarity)

整个过程中，始终只有一条来源数据在内存中。这样无论来源数据有多少，都不会爆内存。

相关文章

gensim #2 迭代计算
关于文档转向量、计算相似度这些算法，许多经典的库中都有，比如sklearn就可以实现#1中的整个流程。 gensi...
gensim
word2vecfrom gensim.models import Word2Vec from gensim.mo...
gensim word2vec工具怎么用？
1.这篇博客值得借鉴的地方是如何以迭代器的方式来读取训练样本Gensim Word2vec 使用指南2.这篇博客值...
gensim Intel MKL FATAL错误
gensim库训练报错 from gensim.models import Word2vecIntel MKL F...
基于 Gensim 的 Word2Vec 实践
基于 Gensim 的 Word2Vec 实践
【Gensim训练Word2Vec】参数详解
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说...
Python gensim Word2Vec tutorial
Python gensim Word2Vec tutorial with TensorFlow and Keras
Similarity Queries for Security
Introduction of Gensim Gensim is a free Python library de...
逻辑回归及梯度下降（代码）
重点 1 W 计算2 动画显示（jupyter notebook）3 数据读取4 例子数据 W迭代计算动画显示 ...
gensim计算文档相似度
gensim是一个基于Python语言的开源工具集，用于处理向量空间模型(vector space modelin...

网友评论

NLP

本文标题：gensim #2 迭代计算

本文链接：https://www.haomeiwen.com/subject/aykndftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

NLP

关于我们|服务条款|联系我们|gensim #2 迭代计算|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！