- 问题
Word2Vec学习出来的向量本身就含有了语义信息,那为什么还有问题呢?是什么问题?
问题就是多义词问题,众所周知,所有的语言为了提高复用性,都会有多义词现象。word2vec学的还不够好。比如play只能学到在体育领域的一些词汇。
后面一些深度网络学习的方法,比如ELMO,BERT等等,其主要方法是, 基于上面word2vec学好的单词的Word Embedding。再根据上下文单词的语义去调整单词的Word Embedding表示,这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义,自然也就解决了多义词的问题了。所以后面都是根据当前上下文对Word Embedding动态调整的思路。 这是学到的play向量,可能具有了更多含义,如演出等。
我个人理解,就是学的更彻底,向量更适配于各种多义的含义。本质还是一个词,一个向量。
网友评论