gensim #3 结果持久化

作者: 平仄_pingze | 来源:发表于2018-05-18 20:19 被阅读27次

gensim #3 结果持久化
OkHttp3--CookieJar 持久化Cookie
Redis--(持久化，用户认证，禁用或重命名危险命令）
pip安装提示PermissionError: [WinErro
redis持久化（RDB+AOF）
redis持久化rdb和aof
10.redis的RDB和AOF两种持久化机制的优劣势对比
09.图解分析redis的RDB和AOF两种持久化机制的工作原理
面试技巧攻克-iOS中数据持久化
缓存架构之01：redis的RDB持久化配置以及数据恢复实验

有时我们希望在计算结束后对一条新的文档获取相似度向量。
这时，可以预先在整体计算时，将index、dictionary等数据保存到文件。后续计算时，可以从文件加载之前的计算结果。

gensim主要实例对象都提供了save(filepath)方法，可以直接保存到文件。

如何储存

在#2中的代码结尾追加：

dictionary.save('/tmp/gensim/test.dict')
tfidf_model.save('/tmp/gensim/test.model')
index.save('/tmp/gensim/test.index')

重新执行后，发现/tmp/gensim目录下有：

test.dict
test.model
test.index
test.index.0

值得一提的是，由于我们使用了可迭代计算的gensim.similarities.Similarity类，并在初始化时，指定首个参数为'/tmp/gensim/test，其会自动保存结果到文件，并根据索引大小分片(shard)。文件会命名为test.index.0、test.index.1、test.index.2等等。

如何读取

import gensim
dictionary = gensim.corpora.Dictionary.load('/tmp/gensim/test.dict')
model = gensim.models.tfidfmodel.load('/tmp/gensim/test.model')
index = gensim.similarities.Similarity.load('/tmp/gensim/test.index')

读取后，就可以进行新文档的运算：

doc = 'xxx xxx xx xxx'
vec = dictionary.doc2bow(doc.split())
similarity = index[model[vec]]
print(similarity)

网友评论

本文标题：gensim #3 结果持久化

本文链接：https://www.haomeiwen.com/subject/kukndftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

gensim #3 结果持久化

如何储存

如何读取

相关文章

gensim #3 结果持久化

OkHttp3--CookieJar 持久化Cookie

Redis--(持久化，用户认证，禁用或重命名危险命令）

pip安装提示PermissionError: [WinErro

redis持久化（RDB+AOF）

redis持久化rdb和aof

10.redis的RDB和AOF两种持久化机制的优劣势对比

09.图解分析redis的RDB和AOF两种持久化机制的工作原理

面试技巧攻克-iOS中数据持久化

缓存架构之01：redis的RDB持久化配置以及数据恢复实验

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读