英文维基百科语料上的Word2Vec实验

英文维基百科语料上的Word2Vec实验

作者: freedomzll | 来源:发表于2017-04-20 14:52 被阅读674次

英文维基百科语料上的word2vec实验
英文维基百科语料上的Word2Vec实验
word2vec训练中文微博语料
使用中文维基百科语料库训练一个word2vec模型并使用说明
维基百科语料上的word2vec实验（二）pip的安装
中文维基百科语料的Word2vec训练-gensim
维基百科语料上的word2vec实验（一）win7-64bit-
基于TensorFlow实现Skip-Gram模型
embedding之word2vec
Skip-Gram 模型

做word2vec实验主要是论文需要用到词向量，至于word2vec内在的数学原理啥的真的一窍不通，为了处理维基百科的语料，光是安装gensim的准备工作都搞了好久，后来发现了一个简易的安装方法才知道自己是走了多少冤枉路啊。不感慨了，主要还是做个笔记，网上的内容很多，好的帖子也有，记下来还是方便查找。

这个实验主要是按照这篇帖子的步骤走的我爱自然语言处理-中英文维基百科语料上的Word2Vec实验

维基百科语料下载

这里面全是维基的一下数据集，各种类型的，我用的是：enwiki-latest-pages-articles.xml.bz2

数据集特别大，压缩后的有12个G，解压的话将近60G，但是后面处理时不需要解压。

我是将所有脚本和数据集都存储在一个文件夹中，方便操作：

截图7

数据集的处理包括两个阶段：

（1）将xml格式的wiki数据转换成text格式，通过下面这个process_wiki.py脚本实现，process_wiki是自己命名的，所有换成别的也可以：

截图1

这里利用了gensim里的维基百科处理类WikiCorpus，通过get_texts将维基里的每篇文章转换位1行text文本，并且去掉了标点符号等内容。

我在执行process_wiki.py脚本脚本时报错了：

截图2

一直在纠结这个问题要怎么改正，问了别人也没解决，后来想想执行下一步看看吧，没想到竟然可以。

执行"python process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text":

截图3

执行成功了，但是有警告，可能是安装gensim时的警告影响的，因为之前安装gensim的时候，import的时候虽然成功了但是存在一个警告，但是不影响大局。大概跑了三个小时五十分钟，我的机器配置是4核8G内存。

截图4

（2）将text文件生成词向量，脚本train_word2vec_model.py如下：

截图5

执行python train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector命令：

截图6

一个星期之后，提示有个接口过期了，瞬间那个心累啊

8

然后更新了接口之后，又跑了5天的样子，终于成功了，得到了一个gensim中默认格式的word2vec model和一个原始c版本word2vec的vector格式的模型: wiki.en.text.vector

9

（3）在ipython中，通过gensim来加载和测试这个模型

9

试了好几次一直说栈下溢，问了参考帖子的楼主也没有得到解决，但是加载wiki.en.text.model文件却可以成功，也没有存在大文件无法训练的情况：

10

11

相关文章

英文维基百科语料上的word2vec实验
环境准备 python 先安装python，2.7和3的版本都可以。 pip 用pip来下载python各种库非常...
英文维基百科语料上的Word2Vec实验
做word2vec实验主要是论文需要用到词向量，至于word2vec内在的数学原理啥的真的一窍不通，为了处理维基百...
word2vec训练中文微博语料
参考文献：windows下使用word2vec训练维基百科中文语料全攻略！（网址见文末）步骤一：下载中文微博语料...
使用中文维基百科语料库训练一个word2vec模型并使用说明
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型。相关资料下载：中文维基百科下载地址：h...
维基百科语料上的word2vec实验（二）pip的安装
前提是Python也安装配置完成 1、下载pip：pip下载地址下载完成后解压，随便放在哪个目录下，然后在cmd...
中文维基百科语料的Word2vec训练-gensim
语料获取英文维基百科中文维基百科预处理数据将xml的压缩文件处理成text格式将wiki.zh.text...
维基百科语料上的word2vec实验（一）win7-64bit-
下面是我搜了各种资料统一起来需要用到的文件，连接如下：http://pan.baidu.com/s/1slyJ1a...
基于TensorFlow实现Skip-Gram模型
理解 Word2Vec 之 Skip-Gram 模型 Word2Vec是从大量文本语料中以无监督的方式学习语义知识...
embedding之word2vec
1. 什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识...
Skip-Gram 模型
什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种...

网友评论

本文标题：英文维基百科语料上的Word2Vec实验

本文链接：https://www.haomeiwen.com/subject/smuczttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|英文维基百科语料上的Word2Vec实验|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！