美文网首页数据分析AIgensim
基于gensim的Wiki百科中文word2vec训练

基于gensim的Wiki百科中文word2vec训练

作者: xiiao蜗牛 | 来源:发表于2017-07-11 00:04 被阅读370次

    Word2Vec简介

    Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时捷】两个词向量将会离得很近。而【腾讯】和【宝马】/【保时捷】,【网易】和【宝马】/【保时捷】将会离得较远一些。因为【腾讯】和【网易】都同属于互联网类目,而【宝马】和【保时捷】都同属于汽车类目。人以类聚,物以群分嘛!互联网圈子中谈的毕竟都是互联网相关的话题,而汽车圈子中谈论的都是和汽车相关的话题。

    我们怎么得到一个词的word2vec呢?下面我们将介绍如何使用python gensim得到我们想要的词向量。总的来说,包括以下几个步骤:

    • wiki中文数据预处理
    • 文本数据分词
    • gensim word2vec训练

    wiki中文数据预处理

    首先,下载wiki中文数据:[zhwiki-latest-pages-articles.xml.bz2][1]。因为zhwiki数据中包含很多繁体字,所以我们想获得简体语料库,接下来需要做以下两件事:

    • 使用gensim模块中的WikiCorpus从bz2中获取原始文本数据
    • 使用OpenCC将繁体字转换为简体字

    WikiCorpus获取原始文本数据

    数据处理的python代码如下:

    from __future__ import print_function
    from gensim.corpora import WikiCorpus
    import jieba
    import codecs
    import os
    import six
    from gensim.models import Word2Vec
    from gensim.models.word2vec import LineSentence
    import multiprocessing
    
     
    class Config:
        data_path = 'xxx/zhwiki'
        zhwiki_bz2 = 'zhwiki-latest-pages-articles.xml.bz2'
        zhwiki_raw = 'zhwiki_raw.txt'
        zhwiki_raw_t2s = 'zhwiki_raw_t2s.txt'
        zhwiki_seg_t2s = 'zhwiki_seg.txt'
        embedded_model_t2s = 'embedding_model_t2s/zhwiki_embedding_t2s.model'
        embedded_vector_t2s = 'embedding_model_t2s/vector_t2s'
     
     
    def dataprocess(_config):
        i = 0
        if six.PY3:
            output = open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')
        output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')
        wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={})
        for text in wiki.get_texts():
            if six.PY3:
                output.write(b' '.join(text).decode('utf-8', 'ignore') + '\n')
            else:
                output.write(' '.join(text) + '\n')
            i += 1
            if i % 10000 == 0:
                print('Saved ' + str(i) + ' articles')
        output.close()
        print('Finished Saved ' + str(i) + ' articles')
    
    config = Config()
    dataprocess(config)
    

    使用OpenCC将繁体字转换为简体字

    这里,需要预先安装OpenCC,关于OpenCC在linux环境中的安装方法,请参考[这篇文章][2]。仅仅需要两行linux命令就可以完成繁体字转换为简体字的认为,而且速度很快。

    $ cd /xxx/zhwiki/
    $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
    

    文本数据分词

    对于分词这个任务,我们直接使用了python的jieba分词模块。你也可以使用哈工大的ltp或者斯坦福的nltk python接口进行分词,准确率及权威度挺高的。不过这两个安装的时候会花费很长时间,尤其是斯坦福的。关于jieba的分词处理代码,参考如下:

    def is_alpha(tok):
        try:
            return tok.encode('ascii').isalpha()
        except UnicodeEncodeError:
            return False
    
    
    def zhwiki_segment(_config, remove_alpha=True):
        i = 0
        if six.PY3:
            output = open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')
        output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')
        print('Start...')
        with codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw_t2s), 'r', encoding='utf-8') as raw_input:
            for line in raw_input.readlines():
                line = line.strip()
                i += 1
                print('line ' + str(i))
                text = line.split()
                if True:
                    text = [w for w in text if not is_alpha(w)]
                word_cut_seed = [jieba.cut(t) for t in text]
                tmp = ''
                for sent in word_cut_seed:
                    for tok in sent:
                        tmp += tok + ' '
                tmp = tmp.strip()
                if tmp:
                    output.write(tmp + '\n')
            output.close()
    
    zhwiki_segment(config)
    

    gensim word2vec训练

    python的gensim模块提供了word2vec训练,为我们模型的训练提供了很大的方便。关于gensim的使用方法,可以参考[基于Gensim的Word2Vec实践][3]。
    本次训练的词向量大小size为50,训练窗口为5,最小词频为5,并使用了多线程,具体代码如下:

    def word2vec(_config, saved=False):
        print('Start...')
        model = Word2Vec(LineSentence(os.path.join(_config.data_path, _config.zhwiki_seg_t2s)),
                         size=50, window=5, min_count=5, workers=multiprocessing.cpu_count())
        if saved:
            model.save(os.path.join(_config.data_path, _config.embedded_model_t2s))
            model.save_word2vec_format(os.path.join(_config.data_path, _config.embedded_vector_t2s), binary=False)
        print("Finished!")
        return model
     
     
    def wordsimilarity(word, model):
        semi = ''
        try:
            semi = model.most_similar(word, topn=10)
        except KeyError:
            print('The word not in vocabulary!')
        for term in semi:
            print('%s,%s' % (term[0],term[1]))
    
    model = word2vec(config, saved=True)
    

    word2vec训练已经完成,我们得到了想要的模型以及词向量,并保存到本地。下面我们分别查看同【宝马】和【腾讯】最相近的前10个词语。可以发现:和【宝马】相近的词大都属于汽车行业,而且是汽车品牌;和【腾讯】相近的词大都属于互联网行业。

    >>> wordsimilarity(word=u'宝马', model=model)
    保时捷,0.92567974329
    固特异,0.888278841972
    劳斯莱斯,0.884045600891
    奥迪,0.881808757782
    马自达,0.881799697876
    亚菲特,0.880708634853
    欧宝,0.877104878426
    雪铁龙,0.876984715462
    玛莎拉蒂,0.868475496769
    桑塔纳,0.865387916565
    
    >>> wordsimilarity(word=u'腾讯', model=model)
    网易,0.880213916302
    优酷,0.873666107655
    腾讯网,0.87026232481
    广州日报,0.859486758709
    微信,0.835543811321
    天涯社区,0.834927380085
    李彦宏,0.832848489285
    土豆网,0.831390202045
    团购,0.829696238041
    搜狐网,0.825544642448
    

    附[相关数据及代码][4],包含:简体字转换后文本,分词后文本,以及50维word2vec词向量。
    [1]: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
    [2]: http://www.jianshu.com/p/834a02d085b6
    [3]: https://segmentfault.com/a/1190000008173404?from=timeline
    [4]: http://pan.baidu.com/s/1eRLUR9g

    相关文章

      网友评论

        本文标题:基于gensim的Wiki百科中文word2vec训练

        本文链接:https://www.haomeiwen.com/subject/iiiuhxtx.html