使用zhwiki数据训练word2vec

作者: 凌烟阁主5221 | 来源:发表于2019-12-23 17:32 被阅读0次

使用zhwiki数据训练word2vec
tensorflow 实战word2Vec 序列embeddin
word2vec和kmeans训练聚类主题，使用python，g
情感分类模型：Word2Vec + RNN
OpenCC - 简体繁体转换
02-25：NN/word2vec算法
Q: Consider increasing spark.rp
Python加载预训练Word2vec-GoogleNews-v
0111：word2vec
基于gensim的word2vec实战

当前项目中用到的词向量都是网上别人已经训练好的

这个项目是常用的一些语料资源集合 https://github.com/ares5221/ChineseNLPCorpus

这个项目是当前常用的词向量的集合 https://github.com/Embedding/Chinese-Word-Vectors

但是网上下载的词向量都是直接用的，如果想要继续训练的话，需要有保存的model，这个一般都没有，所有我们那一些语料自己训练，训练好的model再用我们自己的语料接着训练

这里先介绍如何训练

1 我们这里用wilizh数据来训练

到 https://dumps.wikimedia.org/zhwiki/的目录下

选择latest最新

由于我们要训练词向量，所以要找正文相关也就是 pages-articals xml bz2的文件

直接点击下载一般是2g以内大小

2，数据处理将wiki的xml文件处理成正常的txt文件 15min左右

需要用特殊的脚本处理而不能直接压缩(与维基百科保存格式有关)

github中有更为全面的WikiExtractor

3.使用opencc将繁体txt转换为简体txt

下载地址：

https://bintray.com/package/files/byvoid/opencc/OpenCC

下载1.04win32，无需安装，解压即可使用，解压后其中文件

网上说把bin路径添加到环境变量，我操作后失败，cmd中无法识别opencc命令

实际的操作，亲测可行

将我们前面生成即可的wiki.zh.text拖动至opencc-1.0.4-win32文件夹中，

打开cmd并在当前文件夹中输入如下指令:

E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\bin> .\opencc -i wiki.zh.text -o test.txt -c E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json

这里先切换到bin路径下 -c后面的参数设置t2s.json文件写绝对路径

差不多五分钟左右，然后可以看到目录中生成了test.text文件

打开后可以查看其中内容，可以看到已经成功全部转化为了简体字

但是做词向量训练之前仍缺少最后一步，就是分词

4,分词

网友评论

本文标题：使用zhwiki数据训练word2vec

本文链接：https://www.haomeiwen.com/subject/rlftoctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用zhwiki数据训练word2vec

相关文章