20201021-词的向量转换的发展过程

作者: 野山羊骑士 | 来源:发表于2020-10-24 12:17 被阅读0次

image

语言学家将词与词之间连接起来，构成一个wordNet，每个词由其他词链接表示。

python里边有一个这样的库：

image

缺点：无法表示词库中没有的词、主观的语言学家、只是链接到底链接多紧密呢？、计算相似性也困难

2.1 开始是，构建语料库-->one-hot，缺点就是太长、太稀疏、词间无关联

2.2 然后是考虑上下文的：High-dimensional sparse word vactor 高维稀疏矩阵词向量;

 Neighbor-based representation  基于邻词的表示，如：Co-occurrence matrix gives

image

Neighbor definiton，缺点还是稀疏，维度太高，鲁棒性太差

2.3 然后是Low-dimensional dense word vector 低维稠密矩阵

2.3.1 有两种方法一种是利用SVD奇异值分解的降维方法；缺点是计算量太大，很难添加新词

2.3.2 一种是利用学习的方法：目前主流的方法

image

相对于基于词频的向量表示，神经网络的优势示例：

神经网络是基于向量空间的距离的，也就是基于上下文逻辑的。频数是基于语料库的，还是有局限性。

image

网友评论

本文标题：20201021-词的向量转换的发展过程

本文链接：https://www.haomeiwen.com/subject/eaxemktx.html

20201021-词的向量转换的发展过程