词的向量转换的发展过程
1 Knowledge-base representation
语言学家将词与词之间连接起来,构成一个wordNet,每个词由其他词链接表示。
python里边有一个这样的库:
image缺点:无法表示词库中没有的词、主观的语言学家、只是链接到底链接多紧密呢?、计算相似性也困难
2 Corpus -based representation 语料库
2.1 开始是,构建语料库-->one-hot,缺点就是太长、太稀疏、词间无关联
2.2 然后是考虑上下文的:High-dimensional sparse word vactor 高维稀疏矩阵词向量;
Neighbor-based representation 基于邻词的表示,如:Co-occurrence matrix gives
image
Neighbor definiton,缺点还是稀疏,维度太高,鲁棒性太差
2.3 然后是Low-dimensional dense word vector 低维稠密矩阵
2.3.1 有两种方法一种是利用SVD奇异值分解的降维方法;缺点是计算量太大,很难添加新词
2.3.2 一种是利用学习的方法:目前主流的方法
image相对于基于词频的向量表示,神经网络的优势示例:
神经网络是基于向量空间的距离的,也就是基于上下文逻辑的。频数是基于语料库的,还是有局限性。
image
网友评论