美文网首页顶会优质论文解读
多义词向量《Probabilistic FastText for

多义词向量《Probabilistic FastText for

作者: 布口袋_天晴了 | 来源:发表于2019-07-26 16:28 被阅读3次

论文
github代码
PPT

一、背景

针对多义词向量表示问题,提出了一个Probabilistic FastText model(简称:PFastText)。每一个词用高斯混合模型表示,即,一个词的向量可以由它的子结构n-grams的向量求和求平均来表示。
高斯模型就是用高斯概率密度函数,精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。深度理解高斯混合模型

二、模型

词beautiful的高斯混合示意图

图中深黑色箭头代表的是beautiful这个词的最终的向量表示,它由浅灰色箭头的n-garm向量求和求均值得来。这是该论文中用到的高斯混合思想。

beautiful这个词,它的3-grams/4-grams为:
·3-grams:{<be, bea, eau, aut, uti, tif, ful, ul>}
·4-grams:{<bea, beau, ..., iful, ful>}
其中‘<’表示一个词的开头标志符,‘>’表示一个词的结尾标志符。所以上图中画出来的浅灰色箭头是4-grams向量。

三、理论分析

模型的参数,每个词w,对应一个词向量v,那么所有的词可构成一个词向量表V。每个n-gram g,对应一个子词结构向量z,那么所有的n-grams可以构成一个字词结构向量表Z。 这两个向量表V、Z是整个模型需要学习出来的参数。
模型的损失函数定义为:真实词对(w,c)的分数要高于错误词对(w,n),且设置一个分数边界值m。


四、实验结果

相关文章

网友评论

    本文标题:多义词向量《Probabilistic FastText for

    本文链接:https://www.haomeiwen.com/subject/fhtdrctx.html