Word2Vector

作者: 冯凯onmyway | 来源:发表于2017-12-07 09:25 被阅读0次

ValueError: Input X must be non-
论文
Word2Vector
word2vector
Word2Vector 算法
word2vector简介
第二篇: 词向量之Spark word2vector实战
word2vector的原理，结构，训练过程
机器学习必须熟悉的算法之word2vector（一）
NLP.TM | 再看word2vector

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。

Skip-Gram的实现逻辑类似于自编码器，模型的输出不是最终结果，隐层构成的向量才是所要的vector。

以句子The quick brown fox jumps over the lazy dog为例，实现过程为

1 选定词语fox作为input-word

2 定义skip-window作为input-word的上下文范围，如skip-window=2，fox的上下文为quick，brown, jumps, over，组成的样本对(fox,quick),(fox,brown), (fox,jumps), (fox,over)。定义窗口中选取的样本对个数num-skips，如果num-skips=2，skip-window=2，则从四组样本中随机选取两组作为样本。