中文Wiki语料获取

作者: Yuxuanxuan | 来源:发表于2016-08-23 11:05 被阅读1547次

    1. 数据下载#

    wiki中文数据的下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
    需对其进行繁简转换,中文分词,去除非utf-8字符等处理。

    2. 文本预处理#

    • 执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text 将这个XML压缩文件转换为txt文件。
    • 执行:opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。
    • 调用LTP进行分词
    • 执行:iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8,将非utf-8格式字符转换为utf-8格式
    • 调用word2vec:python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector

    更多请参考《维基百科简体中文语料的获取》中的方法

    相关文章#

    斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示
    斯坦福大学深度学习与自然语言处理第二讲:词向量
    如何计算两个文档的相似度(二)
    微软:Web N-gram Services
    Beautiful Data-统计语言模型的应用三:分词7
    如何计算两个文档的相似度(三)
    用MeCab打造一套实用的中文分词系统(二)
    Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
    Beautiful Data-统计语言模型的应用三:分词3
    MIT自然语言处理第三讲:概率语言模型(第三部分)

    相关文章

      网友评论

        本文标题:中文Wiki语料获取

        本文链接:https://www.haomeiwen.com/subject/ceogsttx.html