一、背景
针对多义词向量表示问题,提出了一个Probabilistic FastText model(简称:PFastText)。每一个词用高斯混合模型表示,即,一个词的向量可以由它的子结构n-grams的向量求和求平均来表示。
高斯模型就是用高斯概率密度函数,精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。深度理解高斯混合模型
二、模型
词beautiful的高斯混合示意图图中深黑色箭头代表的是beautiful这个词的最终的向量表示,它由浅灰色箭头的n-garm向量求和求均值得来。这是该论文中用到的高斯混合思想。
beautiful这个词,它的3-grams/4-grams为:
·3-grams:{<be, bea, eau, aut, uti, tif, ful, ul>}
·4-grams:{<bea, beau, ..., iful, ful>}
其中‘<’表示一个词的开头标志符,‘>’表示一个词的结尾标志符。所以上图中画出来的浅灰色箭头是4-grams向量。
三、理论分析
模型的参数,每个词w,对应一个词向量v,那么所有的词可构成一个词向量表V。每个n-gram g,对应一个子词结构向量z,那么所有的n-grams可以构成一个字词结构向量表Z。 这两个向量表V、Z是整个模型需要学习出来的参数。
模型的损失函数定义为:真实词对(w,c)的分数要高于错误词对(w,n),且设置一个分数边界值m。
网友评论