该方法的优化点是将位置信息添加到word2vec的计算中。
word2vec有两种实现方式,一种是cbow,基于context(上下文S词)预测中心词,另一种是skipgram,基于中心词预测上下文。 主要的优化方向是cbow.
1. 标准的cbow的实现
有两种实现模式:
1)基于公式,其中代表句向量,在fasttext中的求法就是w的简单均值。
2)考虑到随机选取一部分非中心词当做错误集合,将错误集合的预测结果和中心词的预测当成两类,加入loss函数,那么loss函数的公式可以写为:
其中:
2. 基于位置的cbow
该方案中,基于位置的考虑非常简单容易实现,计算成本低。
对于每个需要预测的词w, 建立一个基于距离P的文本窗口,w是通过该文本窗口中的词预测出来。
也就是说,将原有标准cbow实现中的文本向量是w的平均,改成基于位置权重的词向量叠加。
三. 效果:
论文中,对比了cbow, cbow+phrase(ngream),cbow+phrase+weight(本方案)方法在
common crawel数据集的结果如下:
可以看出,本方案取得了较优的提升。
网友评论