Glove词向量

作者: Luuuuuua | 来源:发表于2019-06-25 15:03 被阅读0次

利用Word2vec生成句向量（一）
词向量：GloVe
GloVe 词向量
Glove词向量
如何gensim加载glove训练的词向量
Keras文本分类案例
词向量
动态词向量算法 — ELMo
词向量学习算法 Glove
NLP in TensorFlow: 使用预训练的词向量

转载自http://www.fanyeong.com/2018/02/19/glove-in-detail/

Glove词向量出自于论文《Glove:Global Vectors for Word Representation》

什么是Glove？

Glove的全称是Global Vectors for Word Representation,中文意思是全局词向量，它是一个基于全局词频统计（count-based&overall statistics）的词表征(word representation)工具。
跟word2vec一样，它可以把一个单词表示成一个由实数组成的向量，向量可以捕捉单词之间的一些语义特性，如相似性（similarity）、类比性（analogy）。并且通过对向量的运算，如欧几里得距离或cosine相似度，可以计算两个单词之间的语义相似性。

Glove是如何实现的？

根据语料库（corpus）构建一个共现矩阵（Co-occurrence Matrix），矩阵中每一个元素 $X_{ij}$ 代表单词 $i$ 和单词 $j$ 在特定大小的上下文窗口（context window）内共同出现的次数。一般，这个次数的最小值是1，但Glove做了进一步处理：它根据两个单词在上下文窗口的距离 $d$ ，提出了一个衰减函数（decreasing weighting）： $decay=1/d$ 用于计算权重，也就是说距离越远的两个单词所占总计数（total count）的权重越小。
构建词向量（Word Vector）和共现矩阵（Co-occurrence Matrix）之间的近似关系：
$w_i^T\bar{w}_j+b_i+\bar b_j=\log(X_{ij})$
其中， $w_i$ 和 $\bar{w}_j$ 是要求的词向量， $b_i$ 和 $\bar{b}_j$ 分别是两个词向量的偏置项。

3.构造loss function：
$J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\bar{w}_j+b_i+\bar b_j-\log(X_{ij}))^2$
这个损失函数是最简单的mean square loss，只不过在此基础上增加了一个权重函数 $f(X_{ij})$ ，它的作用在于：对于在一个语料库中经常一起出现的单词（frequent occurrence），

这些单词的权重要大于那些很少在一起出现的单词（rare occurrence），所以这个函数是非递减函数；
这些单词的权重也不能太大（overweighted），当到达一定程度之后应该不再增加；
如果两个单词没有在一起出现，即 $X_{ij}=0$ ，那么它们不应该参与到loss function 的计算中去，即 $f(0)=0$

文中，作者采用了符合上述条件的分段函数：
$f(x)=\begin{cases} (x/x_{max})^{\alpha},\, if x<x_{max} \\ 1,\, otherwise \end{cases}$

分段函数

文中的所有实验， $\alpha$ 的取值都是 $0.75，$ $x_{max}$ 的取值都是 $1000$ 。

Glove是怎么训练的？

虽然很多人声称Glove是一种无监督（unsupervised learning）的学习方式，即不需要人工标注数据，但实际上它还是有标签的，这个标签就是 $\log(X_{ij})$ ，而向量 $x_i$ 和 $\bar x_j$ 就是要不断更新学习的参数。因此，本质上它的训练方式和监督学习的训练方式没有什么不同，都是基于梯度下降的。

训练的具体做法是：采用AdaGrad的梯度下降算法，对矩阵 $X$ 中的所有非零元素进行随机采样，学习率设置为0.05，在vector size小于300的情况下迭代50次，其他大小的vector size迭代100次，直至收敛。

因为 $X$ 是对称的，所以最终学到的两个词向量 $w_i$ 和 $\bar{w}_j$ 应该也是对称的，等价的，只不过由于初始值不一样，导致最终的值不一样。为了提高鲁棒性，最终选择两者之和 $w_i+\bar{w}_j$ 作为最终的词向量（两者的初始化不同相当于加了不同的随机噪声所以能提高鲁棒性）。

实验结果

这个图一共采用了三个指标：语义准确度，语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳，而context Windows size大致在6到10之间。

Glove与LSA、word2vec的比较

LSA（Latent Semantic Analysis）是一种比较早的count-based的词向量表征工具，是基于co-occurence matrix的。其采用基于奇异值分解（SVD）的矩阵分解技术对大矩阵进行降维，因为SVD的复杂度很高，所以计算代价比较大。此外，它对所有单词的统计权重都是一致的。
word2vec最大的缺点是只利用了固定窗口内的语料，而没有充分利用所有的语料。
所以Glove是把两者的优点结合了起来。

参考实践代码

如果本身语料比较小，微调没什么作用，或者自己直接训练没有很强的算力，直接使用采用大数据进行预训练的glove词向量也会有比较好的效果。

import numpy as np

DEFAULT_FILE_PATH = "utils/datasets/glove.6B.50d.txt"

def loadWordVectors(tokens, filepath=DEFAULT_FILE_PATH, dimensions=50):
    """Read pretrained GloVe vectors"""
    wordVectors = np.zeros((len(tokens), dimensions))
    with open(filepath) as ifs:
        for line in ifs:
            line = line.strip()
            if not line:
                continue
            row = line.split()
            token = row[0]
            if token not in tokens:
                continue
            data = [float(x) for x in row[1:]]
            if len(data) != dimensions:
                raise RuntimeError("wrong number of dimensions")
            wordVectors[tokens[token]] = np.asarray(data)
    return wordVectors

利用Word2vec生成句向量（一）
首先为什么是Word2vec？不是Glove也不是什么Fasttext等其他的词向量？Glove词向量的训练与部署...
词向量：GloVe
GloVe：Global Vectors for Word Representation，它是一个基于全局词频统计...
GloVe 词向量
GloVe（Global Vectors for Word Representation）它是一个基于全局词频统计...
Glove词向量
转载自http://www.fanyeong.com/2018/02/19/glove-in-detail/ Gl...
如何gensim加载glove训练的词向量
如何gensim加载glove训练的词向量一、前言 glove和word2vec是目前最常用的两个训练词向量的模...
Keras文本分类案例
关键词： word embedding cnn glove:大神预先做好的词向量(就是每个单词用固定维数的向量表示...
词向量
1.更别致的词向量模型：Simpler GloVe - Part 2 2.
动态词向量算法 — ELMo
传统的词向量模型，例如 Word2Vec 和 Glove 学习得到的词向量是固定不变的，即一个单词只有一种词向量，...
词向量学习算法 Glove
常见的词嵌入算法有基于矩阵分解的方法和基于浅层窗口的方法，Glove 结合了这两类方法的优点生成词向量。基于矩阵分...
NLP in TensorFlow: 使用预训练的词向量
知识点: 使用预训练的glove词向量导入所需的包参数设置下载数据集预处理数据集下载并处理预训练的词向量...