全局词向量文本表示
概述:
当前提出来的全局文本表示(GloVe)涵盖了两种主流的模型家族:
1. 全局矩阵分解
2. 局部上下文窗口
此方法极具效率得将通过单词共同出现的矩阵表示和独立的单词上下文结合起来。
目前在同义词任务上有75%及以上的精度,且在相似度任务及命名实体提取中有较好表现
Related work
1. 矩阵分解
回顾:共现矩阵,LSA
带来的问题:
LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。LSA的基本思想就是把高维的文档降到低维空间,那个空间被称为潜在语义空间。这个映射必须是严格线性的而且是基于共现表(就是那个矩阵啦)的奇异值分解
基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解 其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值。然后把的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到;最后计算一个近似的分解矩阵则在最小二乘意义下是的最佳逼近。由于最多包含k个非零元素,所以的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用
2. 弱窗口(上下文)方法
回顾:word2vec(skip-gram, cbow)
带来的问题:
3. GLoVe
The statistics of word occurrences in a corpus is the primary source of information available to all unsupervised methods for learning word represen- tations, and although many such methods now ex- ist, the question still remains as to how meaning is generated from these statistics, and how the re- sulting word vectors might represent that meaning.
文档中词的共现统计信息其实隐含了
基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量
设共现矩阵为,其元素为。
的意义为:在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。
网友评论