词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响模型的实验结果,对于没有GPU资源的人来,训练词向量是一个很消耗时间的过程,训练好的词向量还不一定好。所以,本文列举出一些公开的训练好的词向量资源链接。
中文词向量
网址链接:
https://github.com/Embedding/Chinese-Word-Vectors
该项目提供了100多个不同的表示(密集和稀疏)、上下文特征(单词、Ngram、字符等)和语料库训练的中文单词向量。可以容易地获得具有不同属性的预训练向量,并将其用于自然语言处理的各种任务任务。
英文词向量
网址链接:
https://nlp.stanford.edu/projects/glove/
这个词向量是使用GloVe训练的,如上图所示,有Wikipedia 2014 + Gigaword5、Common Crawl、Twitter语料训练的各种维度词向量。
网页链接:
https://fasttext.cc/docs/en/english-vectors.html
使用FastText训练的词向量。另外还提供了包括中文在内的157种语言训练好的词向量,提供了txt和bin格式。
网址链接:
https://github.com/xgli/word2vec-api
使用Gensim训练的词向量,提供API接口,还支持本地下载,支持的格式有txt和bin格式。
更多关注公众号:自然语言处理与深度学习技术【DeepNLP】
网友评论