美文网首页
使用zhwiki数据训练word2vec

使用zhwiki数据训练word2vec

作者: 凌烟阁主5221 | 来源:发表于2019-12-23 17:32 被阅读0次

    当前项目中用到的词向量都是网上别人已经训练好的

    这个项目是常用的一些语料资源集合  https://github.com/ares5221/ChineseNLPCorpus

    这个项目是当前常用的词向量的集合  https://github.com/Embedding/Chinese-Word-Vectors

    但是网上下载的词向量都是直接用的,如果想要继续训练的话,需要有保存的model,这个一般都没有,所有我们那一些语料自己训练,训练好的model再用我们自己的语料接着训练

    这里先介绍如何训练

    1 我们这里用wilizh数据来训练

    到 https://dumps.wikimedia.org/zhwiki/的目录下

    选择latest最新

    由于我们要训练词向量,所以要找正文相关 也就是 pages-articals xml bz2的文件

    直接点击下载 一般是2g以内大小

    2,数据处理 将wiki的xml文件处理成正常的txt文件 15min左右

    需要用特殊的脚本处理而不能直接压缩(与维基百科保存格式有关)

    github中有更为全面的WikiExtractor

    3.使用opencc将繁体txt转换为简体txt

    下载地址:

    https://bintray.com/package/files/byvoid/opencc/OpenCC

    下载1.04win32,无需安装,解压即可使用,解压后其中文件

    网上说把bin路径添加到环境变量,我操作后失败,cmd中无法识别opencc命令

    实际的操作,亲测可行

    将我们前面生成即可的wiki.zh.text拖动至opencc-1.0.4-win32文件夹中,

    打开cmd并在当前文件夹中输入如下指令:

    E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\bin> .\opencc -i wiki.zh.text -o test.txt -c E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json

    这里先切换到bin路径下 -c后面的参数设置t2s.json文件写绝对路径

    差不多五分钟左右,然后可以看到目录中生成了test.text文件

    打开后可以查看其中内容,可以看到已经成功全部转化为了简体字

    但是做词向量训练之前仍缺少最后一步,就是分词

    4,分词

    相关文章

      网友评论

          本文标题:使用zhwiki数据训练word2vec

          本文链接:https://www.haomeiwen.com/subject/rlftoctx.html