文本表示(Representation)
作用:将非结构化的信息(文本)转化为结构化的信息(向量)
文本表示的方法:
1.one-hot representation 独热编码
2.整数编码
3.word embedding 词嵌入
word embedding 词嵌入
优点:
1.可以将文本通过地位向量来表达
2.语意相似的词在向量空间上也会比较相近
3.通用性强,可用于不同的任务中
主流的 word embedding 算法:word2vec GLoVe
word2vec
一种基于统计方法来获得词向量的方法
两种训练模式:
1.通过上下文来预测当前词
2.通过当前词来预测上下文
GloVe
对word2vec的扩展
将全据统计和word2vec的基于上下文的学习结合了起来
网友评论