复现这篇论文
理论篇
w2v
- 原始优化方式
minimize
- 梯度下降
从刚刚最终的梯度公式中,存在着一个参数,我们知道这个参数代表的含义是词典中单词的个数,通常这个个数会非常大,这时候我们在进行迭代的时候对系统消耗也是巨大的,因为每走一步就要对所有的单词进行一次矩阵运算,这里讨论如何解决。
- 梯度下降
优化
负采样
在 skip-gram 模型, 即通过中心词来推断上下文一定窗口内的单词, 进行softmax来求解,势必会造成维度灾难,所以这里进行负采样
- 每个中心词,也是其他情况的周围词,所以每个词会有两个词向量,一个是周围词,一个是中心词
- 在自然语言处理应用中,一般使用跳字模型的中心词向量作为词的表征向量。
Hierarchical Softmax
采用层次softmax 可以使时间复杂度降低到
这个 博客很好 https://www.cnblogs.com/pinard/p/7243513.html了解详情就看一下。
网友评论