word2vec负采样

word2vec负采样

作者: lwyaoshen | 来源:发表于2018-05-20 20:20 被阅读0次

tensorflow 实战word2Vec 序列embeddin
word2vec负采样
word2Vec
噪声对比估计
吴恩达深度学习-序列模型 2.8 GloVe 词向量
word2vec -- 负采样 -- skip-gram
word2vec、负采样、层序softmax
Word2Vec教程-Negative Sampling 负采样
探秘Word2Vec(六)-负采样方法
batch内负采样

负采样算法

任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段，根据词语的词频将其公平地分配给每个词语：

image

counter就是w的词频。
于是我们将该线段公平地分配了：

image

接下来我们只要生成一个0-1之间的随机数，看看落到哪个区间，就能采样到该区间对应的单词了，很公平。

但怎么根据小数找区间呢？速度慢可不行。

word2vec用的是一种查表的方式，将上述线段标上M个“刻度”，刻度之间的间隔是相等的，即1/M：

image

接着我们就不生成0-1之间的随机数了，我们生成0-M之间的整数，去这个刻度尺上一查就能抽中一个单词了。

在word2vec中，该“刻度尺”对应着table数组。具体实现时，对词频取了0.75次幂：

image

这个幂实际上是一种“平滑”策略，能够让低频词多一些出场机会，高频词贡献一些出场机会，劫富济贫。

相关文章

tensorflow 实战word2Vec 序列embeddin
使用word2vec 负采样的方法，训练序列embedding。数据集介绍数据集选用开源的 MovieLens...
word2vec负采样
负采样算法任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段，根据词语的词频将...
word2Vec
目录 skip gram神经网络体系结构模型负采样 skip gram神经网络体系结构模型 Word2Vec使...
噪声对比估计
说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（...
吴恩达深度学习-序列模型 2.8 GloVe 词向量
我们已经讲了skip-gram和word2vec以及负采样之外，我们还有另外一个方法可以建立词嵌入向量。在一开始...
word2vec -- 负采样 -- skip-gram
我以前写过一篇关于word2vec的文章，说实话，写的一坨，我决定以后写博客认认真真的去写。我的博客来自于网上各位...
word2vec、负采样、层序softmax
word2vec word2vec也叫word embeddings,中文名“词向量”、"词嵌入"。是Google...
Word2Vec教程-Negative Sampling 负采样
这篇word2vec教程2中（教程1 Word2Vec教程-Skip-Gram模型），作者主要讲述了skip-gr...
探秘Word2Vec(六)-负采样方法
在基于Hierarchical Softmax的Skip-gram模型和CBOW模型中，负采样是一个很重要的环节，...
batch内负采样
一般在计算softmax交叉熵时，需要用tf.nn.log_uniform_candidate_sampler对i...

网友评论

本文标题：word2vec负采样

本文链接：https://www.haomeiwen.com/subject/bfotjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|word2vec负采样|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！