美文网首页
中文维基百科语料的Word2vec训练-gensim

中文维基百科语料的Word2vec训练-gensim

作者: c9c574caa6d5 | 来源:发表于2017-05-22 11:23 被阅读0次

    语料获取

    英文维基百科

    中文维基百科

    预处理数据

    1. 将xml的压缩文件处理成text格式
    python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
    
    1. 将wiki.zh.text中的繁体字转化为简体字,利用开源项目opencc
    opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json
    
    1. 分词,利用jieba分词
    python -m jieba wiki.zh.jian.text > wiki.zh.jian.seg.text -d ' '
    
    1. 训练word2vec模型
    python train_word2vec_gensim.py wiki.zh.jian.seg.text zhwiki.model zhwiki.vector
    
    1. 用gensim加载和简单测试一下得到的vector的效果
    >>> import gensim
    >>> model = gensim.models.Word2Vec.load_word2vec_format("zhwiki.vector", binary=False)
    #model = gensim.models.Word2Vec.load("zhwiki.model")
    >>> result = model.most_similar(u"足球")
    >>> for e in result:
    ...     print e[0], e[1]
    ...
    足球运动 0.542515218258
    国际足球 0.529274106026
    足球队 0.515214025974
    篮球 0.507430315018
    足球联赛 0.501194238663
    国家足球队 0.490789890289
    体育 0.486750543118
    足球比赛 0.482675015926
    男子篮球 0.478844285011
    世界足球 0.475564420223
    >>>
    

    相关文章

      网友评论

          本文标题:中文维基百科语料的Word2vec训练-gensim

          本文链接:https://www.haomeiwen.com/subject/yibsxxtx.html