中文Wiki语料获取

中文Wiki语料获取

作者: Yuxuanxuan | 来源:发表于2016-08-23 11:05 被阅读1547次

1. 数据下载#

wiki中文数据的下载地址是：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
需对其进行繁简转换，中文分词，去除非utf-8字符等处理。

2. 文本预处理#

执行：python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text 将这个XML压缩文件转换为txt文件。
执行：opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。
调用LTP进行分词
执行：iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8，将非utf-8格式字符转换为utf-8格式
调用word2vec：python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector

更多请参考《维基百科简体中文语料的获取》中的方法

相关文章#

斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示
 斯坦福大学深度学习与自然语言处理第二讲：词向量
 如何计算两个文档的相似度（二）
微软：Web N-gram Services
Beautiful Data-统计语言模型的应用三：分词7
如何计算两个文档的相似度（三）
用MeCab打造一套实用的中文分词系统(二)
Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
Beautiful Data-统计语言模型的应用三：分词3
MIT自然语言处理第三讲：概率语言模型（第三部分）

相关文章

网友评论

本文标题：中文Wiki语料获取

本文链接：https://www.haomeiwen.com/subject/ceogsttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

中文分词

情感分析

关于我们|服务条款|联系我们|中文Wiki语料获取|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！