使用自己的语料训练word2vec模型

作者: 繁著 | 来源:发表于2017-08-14 14:00 被阅读714次

一、准备环境和语料：

新闻20w+篇（格式：标题。正文）

【新闻可以自己从各大新闻网站爬取，也可以下载开源的新闻数据集，如

互联网语料库(SogouT)

中文文本分类数据集THUCNews

李荣陆英文文本分类语料

谭松波中文文本分类语料

等

二、分词

先对新闻文本进行分词，使用的是结巴分词工具，将分词后的文本保存在seg201708.txt，以备后期使用。

安装jieba工具包：pip install jieba

# -*- coding: utf-8 -*-
import jieba
import io
# 加载自己的自己的金融词库
jieba.load_userdict("financialWords.txt")

def main():
    with io.open('news201708.txt','r',encoding='utf-8') as content:
        for line in content:
            seg_list = jieba.cut(line)
#           print '/'.join(seg_list)
            with io.open('seg201708.txt', 'a', encoding='utf-8') as output:
                output.write(' '.join(seg_list))
            
if __name__ == '__main__':
    main()

三、训练word2vec模型

使用python的gensim包进行训练。

安装gemsim包：pip install gemsim

from gensim.models import word2vec

def main():

    num_features = 300    # Word vector dimensionality
    min_word_count = 10   # Minimum word count
    num_workers = 16       # Number of threads to run in parallel
    context = 10          # Context window size
    downsampling = 1e-3   # Downsample setting for frequent words
    sentences = word2vec.Text8Corpus("seg201708.txt")

    model = word2vec.Word2Vec(sentences, workers=num_workers, \
            size=num_features, min_count = min_word_count, \
            window = context, sg = 1, sample = downsampling)
    model.init_sims(replace=True)
    # 保存模型，供日後使用
    model.save("model201708")
    
    # 可以在加载模型之后使用另外的句子来进一步训练模型
    # model = gensim.models.Word2Vec.load('/tmp/mymodel')
    # model.train(more_sentences)

if __name__ == "__main__":
    main()

参数说明

sentences：可以是一个·ist，对于大语料集，建议使用BrownCorpus,Text8Corpus或ineSentence构建。

sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。

size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。

window：表示当前词与预测词在一个句子中的最大距离是多少

alpha: 是学习速率

seed：用于随机数发生器。与初始化词向量有关。

min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5

max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。

sample: 高频词汇的随机降采样的配置阈值，默认为1e-3，范围是(0,1e-5)

workers参数控制训练的并行数。

hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0（defau·t），则negative sampling会被使用。

negative: 如果>0,则会采用negativesamp·ing，用于设置多少个noise words

cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（defau·t）则采用均值。只有使用CBOW的时候才起作用。

hashfxn： hash函数来初始化权重。默认使用python的hash函数

iter：迭代次数，默认为5

trim_rule：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的

sorted_vocab：如果为1（defau·t），则在分配word index 的时候会先对单词基于频率降序排序。

batch_words：每一批的传递给线程的单词的数量，默认为10000

四、word2vec应用

model = Word2Vec.load('model201708')      #模型讀取方式
model.most_similar(positive=['woman', 'king'], negative=['man']) #根据给定的条件推断相似词
model.doesnt_match("breakfast cereal dinner lunch".split()) #寻找离群词
model.similarity('woman', 'man') #计算两个单词的相似度
model['computer'] #获取单词的词向量

网友评论

本文标题：使用自己的语料训练word2vec模型

本文链接：https://www.haomeiwen.com/subject/mjdurxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用自己的语料训练word2vec模型

一、准备环境和语料：

二、分词

三、训练word2vec模型

四、word2vec应用

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

从零开始玩转大数据

机器学习与数据挖掘

首页投稿（暂停使用，暂停投稿）

机器学习

NLP

使用自己的语料训练word2vec模型

一、 准备环境和语料：

二、分词

三、训练word2vec模型

四、word2vec应用

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

从零开始玩转大数据

机器学习与数据挖掘

首页投稿（暂停使用，暂停投稿）

机器学习

NLP

一、准备环境和语料：