（四）GloVe

GloVe本质是加权最小二乘回归模型，引入了共现概率矩阵。

1、基本思想

图2.18 GloVe基本思想

GloVe模型的目标就是获取每个词的向量表示 $w$ 。GloVe认为， $w_i$ 、 $w_j$ 、 $w_k$ 通过某种函数 $F$ 的作用后呈现出来的规律和 $Ratio_{i,j,k}$ 具有一致性，或者说相等，这样子也就可以认为词向量中包含了共现概率矩阵中的信息。

2、模型推导

图2.19 GloVe模型推导1

图2.20 GloVe模型推导2

3.word2vec vs GloVe

	基于统计	word2vec	GloVe
优	训练快；有效利用了统计信息。	更快；更易加词；可以通过计算词向量间余弦相似度计算词间语义相似度；可以和后续NN一起训练。	训练快；可以扩展；因为考虑了很多统计资讯，即使在小数据库上、小向量上也能表现得很好。
缺	捕捉词间语义相似度太初级；大count与大重要性之间不相称。	主要收益于大corpus，未有效利用统计信息。

（五）fastText

fastText为子词嵌入模型。假设子词长度为3个字符，例如，"where"的子词包括"<wh"、"whe"、"her"、"ere"、"re>"以及特殊子词即整词"<where>"。给定一个词 $w$ ，通常可以将子词长度在3到6之间的所有子词和特殊子词的并集 $G_w$ 取出，使用 $\frac{1}{|G_w|}\sum_{g\in G_w}v_g$ 代替Skip-Gram中的原始 $v_c$ ，直接用线性分类器得到分类结果。线性分类器即为只有一层隐藏层且使用的是线性激活函数的NN。词典之外的新词的词向量可以使用fastText中相应的子词向量之和的平均来进行表示。
对于低频词生成的词向量效果更好，因为它们的字符级n-gram可以和其他词共享。对于训练词库之外的单词，仍然可以通过叠加它们的字符级n-gram向量来构建它们的词向量。
fastText也可以用于文本分类。将文本中所有词通过lookup table后得到嵌入词向量，取平均后，直接用线性分类器得到分类结果。线性分类器为只有一层隐藏层且使用的是线性激活函数的神经网络。fastText论文中也指出了，对于一些比较简单的任务，没有必要使用太复杂的网络结构就可以取得差不多的结果。论文中实验选取的都是对词序不是很敏感的数据集，所以得到其实验结果完全不奇怪。对简单的任务来说，用简单的网络结构进行处理基本就够了，但是对于比较复杂的任务而言的话，还是需要更复杂的网络结构来学习文本表征的。
fastText里还提到了2个tricks，分别是：Hierarchical Softmax以及N-gram特征结合Hashing的使用。当输出类别数较多的时候，通过构建一个霍夫曼编码树来加速softmax layer的计算，和之前word2vec中的tricks相同。只用unigram的话会丢掉词序信息，所以通过加入N-gram特征进行补充，使用哈希来减少N-gram的存储。