美文网首页
Glove词向量

Glove词向量

作者: Luuuuuua | 来源:发表于2019-06-25 15:03 被阅读0次

    转载自http://www.fanyeong.com/2018/02/19/glove-in-detail/

    Glove词向量出自于论文《Glove:Global Vectors for Word Representation》

    什么是Glove?

    Glove的全称是Global Vectors for Word Representation,中文意思是全局词向量,它是一个基于全局词频统计(count-based&overall statistics)词表征(word representation)工具。
    跟word2vec一样,它可以把一个单词表示成一个由实数组成的向量,向量可以捕捉单词之间的一些语义特性,如相似性(similarity)、类比性(analogy)。并且通过对向量的运算,如欧几里得距离或cosine相似度,可以计算两个单词之间的 语义相似性。

    Glove是如何实现的?

    1. 根据语料库(corpus)构建一个共现矩阵(Co-occurrence Matrix),矩阵中每一个元素X_{ij}代表单词i和单词j在特定大小的上下文窗口(context window)内共同出现的次数。一般,这个次数的最小值是1,但Glove做了进一步处理:它根据两个单词在上下文窗口的距离d,提出了一个衰减函数(decreasing weighting):decay=1/d用于计算权重,也就是说距离越远的两个单词所占总计数(total count)的权重越小。

    2. 构建词向量(Word Vector)和共现矩阵(Co-occurrence Matrix)之间的近似关系:
      w_i^T\bar{w}_j+b_i+\bar b_j=\log(X_{ij})
      其中,w_i\bar{w}_j是要求的词向量,b_i\bar{b}_j分别是两个词向量的偏置项。

    3.构造loss function:
    J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\bar{w}_j+b_i+\bar b_j-\log(X_{ij}))^2
    这个损失函数是最简单的mean square loss,只不过在此基础上增加了一个权重函数f(X_{ij}),它的作用在于:对于在一个语料库中经常一起出现的单词(frequent occurrence),

    • 这些单词的权重要大于那些很少在一起出现的单词(rare occurrence),所以这个函数是非递减函数;

    • 这些单词的权重也不能太大(overweighted),当到达一定程度之后应该不再增加;

    • 如果两个单词没有在一起出现,即X_{ij}=0,那么它们不应该参与到loss function 的计算中去,即f(0)=0

    文中,作者采用了符合上述条件的分段函数:
    f(x)=\begin{cases} (x/x_{max})^{\alpha},\, if x<x_{max} \\ 1,\, otherwise \end{cases}

    分段函数

    文中的所有实验,\alpha的取值都是0.75, x_{max}的取值都是1000

    Glove是怎么训练的?

    虽然很多人声称Glove是一种无监督(unsupervised learning)的学习方式,即不需要人工标注数据,但实际上它还是有标签的,这个标签就是\log(X_{ij}),而向量x_i\bar x_j就是要不断更新学习的参数。因此,本质上它的训练方式和监督学习的训练方式没有什么不同,都是基于梯度下降的。

    训练的具体做法是:采用AdaGrad的梯度下降算法,对矩阵X中的所有非零元素进行随机采样,学习率设置为0.05,在vector size小于300的情况下迭代50次,其他大小的vector size迭代100次,直至收敛。

    因为X是对称的,所以最终学到的两个词向量w_i\bar{w}_j应该也是对称的,等价的,只不过由于初始值不一样,导致最终的值不一样。为了提高鲁棒性,最终选择两者之和w_i+\bar{w}_j作为最终的词向量(两者的初始化不同相当于加了不同的随机噪声所以能提高鲁棒性)。

    实验结果

    这个图一共采用了三个指标:语义准确度,语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳,而context Windows size大致在6到10之间。

    Glove与LSA、word2vec的比较

    • LSA(Latent Semantic Analysis)是一种比较早的count-based的词向量 表征工具,是基于co-occurence matrix的。其采用基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,因为SVD的复杂度很高,所以计算代价比较大。此外,它对所有单词的统计权重都是一致的。
    • word2vec最大的缺点是只利用了固定窗口内的语料,而没有充分利用所有的语料。
      所以Glove是把两者的优点结合了起来。

    参考实践代码

    如果本身语料比较小,微调没什么作用,或者自己直接训练没有很强的算力,直接使用采用大数据进行预训练的glove词向量也会有比较好的效果。

    import numpy as np
    
    DEFAULT_FILE_PATH = "utils/datasets/glove.6B.50d.txt"
    
    def loadWordVectors(tokens, filepath=DEFAULT_FILE_PATH, dimensions=50):
        """Read pretrained GloVe vectors"""
        wordVectors = np.zeros((len(tokens), dimensions))
        with open(filepath) as ifs:
            for line in ifs:
                line = line.strip()
                if not line:
                    continue
                row = line.split()
                token = row[0]
                if token not in tokens:
                    continue
                data = [float(x) for x in row[1:]]
                if len(data) != dimensions:
                    raise RuntimeError("wrong number of dimensions")
                wordVectors[tokens[token]] = np.asarray(data)
        return wordVectors

    相关文章

      网友评论

          本文标题:Glove词向量

          本文链接:https://www.haomeiwen.com/subject/mopbtctx.html