美文网首页自然语言处理
预训练好的词向量资源

预训练好的词向量资源

作者: 凌恒锋 | 来源:发表于2018-06-26 09:56 被阅读0次

    词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响模型的实验结果,对于没有GPU资源的人来,训练词向量是一个很消耗时间的过程,训练好的词向量还不一定好。所以,本文列举出一些公开的训练好的词向量资源链接。

    中文词向量

    网址链接:

    https://github.com/Embedding/Chinese-Word-Vectors

    该项目提供了100多个不同的表示(密集和稀疏)、上下文特征(单词、Ngram、字符等)和语料库训练的中文单词向量。可以容易地获得具有不同属性的预训练向量,并将其用于自然语言处理的各种任务任务。

    英文词向量

    网址链接:

    https://nlp.stanford.edu/projects/glove/

    这个词向量是使用GloVe训练的,如上图所示,有Wikipedia 2014 + Gigaword5、Common Crawl、Twitter语料训练的各种维度词向量。

    网页链接:

    https://fasttext.cc/docs/en/english-vectors.html

    使用FastText训练的词向量。另外还提供了包括中文在内的157种语言训练好的词向量,提供了txt和bin格式。

    网址链接:

    https://github.com/xgli/word2vec-api

    使用Gensim训练的词向量,提供API接口,还支持本地下载,支持的格式有txt和bin格式。

    更多关注公众号:自然语言处理与深度学习技术【DeepNLP】

    相关文章

      网友评论

        本文标题:预训练好的词向量资源

        本文链接:https://www.haomeiwen.com/subject/gydpyftx.html