美文网首页
Gensim.Word2vec基本使用

Gensim.Word2vec基本使用

作者: 冰源 | 来源:发表于2019-02-21 16:06 被阅读4次

输入格式

iterable类型的数据,单词是要split的

sentences = [['A1','A2'],[],[],....] 

模型训练

# 引入 word2vec
from gensim.models import word2vec

# 引入日志配置
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# 引入数据集
raw_sentences = ["the quick brown fox jumps over the lazy dogs","yoyoyo you go home now to sleep"]

# 切分词汇
sentences= [s.encode('utf-8').split() for s in sentences]

# 构建模型
model = word2vec.Word2Vec(sentences, min_count=1)

# 进行相关性比较
model.similarity('dogs','you')

模型保存

model.save('/tmp/MyModel')
# 前一组方法保存的文件不能利用文本编辑器查看但是保存了训练的全部信息,可以在读取后追加训练
model.save_word2vec_format('/tmp/mymodel.txt',binary = False)
model.save_word2vec_format('/tmp/mymodel.bin.gz',binary = True)
# 后一组方法保存为word2vec文本格式但是保存时丢失了词汇树等部分信息,不能追加训练

追加+训练

model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)

模型加载

model = gensim.models.Word2Vec.load('/tmp/mymodel')

参考文章

gensim Word2Vec 训练和使用

相关文章

  • Gensim.Word2vec基本使用

    输入格式 iterable类型的数据,单词是要split的 模型训练 模型保存 追加+训练 模型加载 参考文章 g...

  • Flutter--Text/Container/Image

    Text基本使用 Container基本使用 Image基本使用

  • 基本使用

    1、 打开需要上传的文件夹执行: git init 格式化窗口 2、执行 git add . 上传文件 3、执行 ...

  • 基本使用

    href="javascript:;" 其中javascript: 是一个伪协议。它可以让我们通过一个链接来调用...

  • 基本使用

    数据库: 什么是数据库?简单来说就是存数据的。 都有什么是数据库? oracle(强大,跟金融政府打交道的,安全,...

  • 基本使用

    本文参考:https://morvanzhou.github.io/tutorials/machine-learn...

  • 6-xpath和css select基本使用

    Xpath基本使用 css select基本使用

  • MySQL语法入门(一)

    MySQL语法入门(一) 基本运算符使用 基本数学函数使用 基本字符串函数使用 基本日期时间函数使用

  • python time与datetime模块基本使用

    time模块基本使用 datetime模块基本使用

  • SQL语句基本使用

    SQL语句基本使用——增删改查 SQL语句基本使用——WHERE子句 SQL语句基本使用——AND和OR的使用 S...

网友评论

      本文标题:Gensim.Word2vec基本使用

      本文链接:https://www.haomeiwen.com/subject/entryqtx.html