encoding和embedding都是自然语言处理中将词语向量化的方法。
encoding
不考虑词之间的联系,每个词之间是独立的。
在这种方法中,没有考虑到同个词不同的语义。
常用的对类别标签进行encoding的one hot encode就是采用了这种方法。因为每个类别是一个数字,它们之间并没有内在联系。
同个词即是同个type。
embedding
将类似的词语聚类在一起,使得相似的词语之间的余弦值较小。
由于同一个词语在不同的语境下可能会有不同的含义,同个词可能根据语义不同会有不同的编码方式。这种方法使得同一个词(type)可以有不同的语义(token)。也就是说,同个type不代表同个token。
image.png
可以参考知乎上的文章Word Embedding--介绍
网友评论