美文网首页
word2vec负采样

word2vec负采样

作者: lwyaoshen | 来源:发表于2018-05-20 20:20 被阅读0次

负采样算法

任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语:

image

counter就是w的词频。
于是我们将该线段公平地分配了:

image

接下来我们只要生成一个0-1之间的随机数,看看落到哪个区间,就能采样到该区间对应的单词了,很公平。

但怎么根据小数找区间呢?速度慢可不行。

word2vec用的是一种查表的方式,将上述线段标上M个“刻度”,刻度之间的间隔是相等的,即1/M:

image

接着我们就不生成0-1之间的随机数了,我们生成0-M之间的整数,去这个刻度尺上一查就能抽中一个单词了。

在word2vec中,该“刻度尺”对应着table数组。具体实现时,对词频取了0.75次幂:

image

这个幂实际上是一种“平滑”策略,能够让低频词多一些出场机会,高频词贡献一些出场机会,劫富济贫。

相关文章

  • tensorflow 实战word2Vec 序列embeddin

    使用word2vec 负采样的方法,训练序列embedding。 数据集介绍 数据集选用开源的 MovieLens...

  • word2vec负采样

    负采样算法 任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将...

  • word2Vec

    目录 skip gram神经网络体系结构模型 负采样 skip gram神经网络体系结构 模型 Word2Vec使...

  • 噪声对比估计

    说到噪声对比估计,或者“负采样”,大家可能立马就想到了Word2Vec。事实上,它的含义远不止于此,噪音对比估计(...

  • 吴恩达深度学习-序列模型 2.8 GloVe 词向量

    我们已经讲了skip-gram和word2vec以及负采样之外,我们还有另外一个方法可以建立词嵌入向量。 在一开始...

  • word2vec -- 负采样 -- skip-gram

    我以前写过一篇关于word2vec的文章,说实话,写的一坨,我决定以后写博客认认真真的去写。我的博客来自于网上各位...

  • word2vec、负采样、层序softmax

    word2vec word2vec也叫word embeddings,中文名“词向量”、"词嵌入"。是Google...

  • Word2Vec教程-Negative Sampling 负采样

    这篇word2vec教程2中(教程1 Word2Vec教程-Skip-Gram模型),作者主要讲述了skip-gr...

  • 探秘Word2Vec(六)-负采样方法

    在基于Hierarchical Softmax的Skip-gram模型和CBOW模型中,负采样是一个很重要的环节,...

  • batch内负采样

    一般在计算softmax交叉熵时,需要用tf.nn.log_uniform_candidate_sampler对i...

网友评论

      本文标题:word2vec负采样

      本文链接:https://www.haomeiwen.com/subject/bfotjftx.html