每次输入一个 (a,I)、(a,would)、(a,like)分三轮
后期有一些并行训练技术,batch_size可以并行训练多轮多对,但原理上每次都是拿softmax出来的结果和目标预期上下文词的one-hot去比较,进行后向传播更新迭代。
意思就是GT不是(1,0,1,0,0),而是(1,0,0,0,0)与(0,0,1,0,0)
cbow是n个embedding进行sum,avg 然后预测一个中心词
skipgram在这张图其实是进行了4次训练,而不是一次完成的
后期通过向量化的思想 一个batch(如batch_size=8)也可以同时计算8个词对,但是每一对都去预测某一个上下文词,跟其对应的one-hot去靠拢逼近、迭代更新
cbow与skipgram https://zhuanlan.zhihu.com/p/58916233分别与中心词进行两次训练嘛
图解word2vec的方法
https://jalammar.github.io/illustrated-word2vec/
natural language 的
https://www.cs.cmu.edu/~ggordon/780-fall07/lectures/natural-language.pdf
优秀的word2vec的文章
http://www.cnblogs.com/neopenx/p/4571996.html
http://qiancy.com/2016/08/17/word2vec-hierarchical-softmax/
知其然知其所以然
网友评论