中文维基百科语料的Word2vec训练-gensim

作者: c9c574caa6d5 | 来源:发表于2017-05-22 11:23 被阅读0次

word2vec训练中文微博语料
使用中文维基百科语料库训练一个word2vec模型并使用说明
中文维基百科语料的Word2vec训练-gensim
【Gensim训练Word2Vec】参数详解
使用gensim训练维基百科中文语料wordvec模型
gensim word2vec 训练外部语料
维基百科中文语料训练word2vec模型
Pytorch 词向量训练
gensim TF-IDF模型中文关键词抽取
基于 Gensim 的 Word2Vec 实践

语料获取

预处理数据

将xml的压缩文件处理成text格式

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

将wiki.zh.text中的繁体字转化为简体字，利用开源项目opencc

opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json

分词，利用jieba分词

python -m jieba wiki.zh.jian.text > wiki.zh.jian.seg.text -d ' '

训练word2vec模型

python train_word2vec_gensim.py wiki.zh.jian.seg.text zhwiki.model zhwiki.vector

用gensim加载和简单测试一下得到的vector的效果

>>> import gensim
>>> model = gensim.models.Word2Vec.load_word2vec_format("zhwiki.vector", binary=False)
#model = gensim.models.Word2Vec.load("zhwiki.model")
>>> result = model.most_similar(u"足球")
>>> for e in result:
...     print e[0], e[1]
...
足球运动 0.542515218258
国际足球 0.529274106026
足球队 0.515214025974
篮球 0.507430315018
足球联赛 0.501194238663
国家足球队 0.490789890289
体育 0.486750543118
足球比赛 0.482675015926
男子篮球 0.478844285011
世界足球 0.475564420223
>>>

网友评论

本文标题：中文维基百科语料的Word2vec训练-gensim

本文链接：https://www.haomeiwen.com/subject/yibsxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

中文维基百科语料的Word2vec训练-gensim

语料获取

预处理数据

相关文章

word2vec训练中文微博语料

使用中文维基百科语料库训练一个word2vec模型并使用说明

中文维基百科语料的Word2vec训练-gensim

【Gensim训练Word2Vec】参数详解

使用gensim训练维基百科中文语料wordvec模型

gensim word2vec 训练外部语料

维基百科中文语料训练word2vec模型

Pytorch 词向量训练

gensim TF-IDF模型中文关键词抽取

基于 Gensim 的 Word2Vec 实践

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读