美文网首页
word2vec负采样

word2vec负采样

作者: lwyaoshen | 来源:发表于2018-05-20 20:20 被阅读0次

    负采样算法

    任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语:

    image

    counter就是w的词频。
    于是我们将该线段公平地分配了:

    image

    接下来我们只要生成一个0-1之间的随机数,看看落到哪个区间,就能采样到该区间对应的单词了,很公平。

    但怎么根据小数找区间呢?速度慢可不行。

    word2vec用的是一种查表的方式,将上述线段标上M个“刻度”,刻度之间的间隔是相等的,即1/M:

    image

    接着我们就不生成0-1之间的随机数了,我们生成0-M之间的整数,去这个刻度尺上一查就能抽中一个单词了。

    在word2vec中,该“刻度尺”对应着table数组。具体实现时,对词频取了0.75次幂:

    image

    这个幂实际上是一种“平滑”策略,能够让低频词多一些出场机会,高频词贡献一些出场机会,劫富济贫。

    相关文章

      网友评论

          本文标题:word2vec负采样

          本文链接:https://www.haomeiwen.com/subject/bfotjftx.html