当前项目中用到的词向量都是网上别人已经训练好的
这个项目是常用的一些语料资源集合 https://github.com/ares5221/ChineseNLPCorpus
这个项目是当前常用的词向量的集合 https://github.com/Embedding/Chinese-Word-Vectors
但是网上下载的词向量都是直接用的,如果想要继续训练的话,需要有保存的model,这个一般都没有,所有我们那一些语料自己训练,训练好的model再用我们自己的语料接着训练
这里先介绍如何训练
1 我们这里用wilizh数据来训练
到 https://dumps.wikimedia.org/zhwiki/的目录下
选择latest最新
由于我们要训练词向量,所以要找正文相关 也就是 pages-articals xml bz2的文件
直接点击下载 一般是2g以内大小
2,数据处理 将wiki的xml文件处理成正常的txt文件 15min左右
需要用特殊的脚本处理而不能直接压缩(与维基百科保存格式有关)
github中有更为全面的WikiExtractor
3.使用opencc将繁体txt转换为简体txt
下载地址:
https://bintray.com/package/files/byvoid/opencc/OpenCC
下载1.04win32,无需安装,解压即可使用,解压后其中文件
网上说把bin路径添加到环境变量,我操作后失败,cmd中无法识别opencc命令
实际的操作,亲测可行
将我们前面生成即可的wiki.zh.text拖动至opencc-1.0.4-win32文件夹中,
打开cmd并在当前文件夹中输入如下指令:
E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\bin> .\opencc -i wiki.zh.text -o test.txt -c E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json
这里先切换到bin路径下 -c后面的参数设置t2s.json文件写绝对路径
差不多五分钟左右,然后可以看到目录中生成了test.text文件
打开后可以查看其中内容,可以看到已经成功全部转化为了简体字
但是做词向量训练之前仍缺少最后一步,就是分词
4,分词
网友评论