预训练好的词向量资源

作者: 凌恒锋 | 来源:发表于2018-06-26 09:56 被阅读0次

词向量是用来表示词的向量，通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏，会直接影响模型的实验结果，对于没有GPU资源的人来，训练词向量是一个很消耗时间的过程，训练好的词向量还不一定好。所以，本文列举出一些公开的训练好的词向量资源链接。

中文词向量

网址链接：

https://github.com/Embedding/Chinese-Word-Vectors

该项目提供了100多个不同的表示（密集和稀疏）、上下文特征（单词、Ngram、字符等）和语料库训练的中文单词向量。可以容易地获得具有不同属性的预训练向量，并将其用于自然语言处理的各种任务任务。

英文词向量

网址链接：

https://nlp.stanford.edu/projects/glove/

这个词向量是使用GloVe训练的，如上图所示，有Wikipedia 2014 + Gigaword5、Common Crawl、Twitter语料训练的各种维度词向量。

网页链接：

https://fasttext.cc/docs/en/english-vectors.html

使用FastText训练的词向量。另外还提供了包括中文在内的157种语言训练好的词向量，提供了txt和bin格式。

网址链接：

https://github.com/xgli/word2vec-api

使用Gensim训练的词向量，提供API接口，还支持本地下载，支持的格式有txt和bin格式。

更多关注公众号：自然语言处理与深度学习技术【DeepNLP】

网友评论

本文标题：预训练好的词向量资源

本文链接：https://www.haomeiwen.com/subject/gydpyftx.html

预训练好的词向量资源