美文网首页
20201021-词的向量转换的发展过程

20201021-词的向量转换的发展过程

作者: 野山羊骑士 | 来源:发表于2020-10-24 12:17 被阅读0次
    image

    词的向量转换的发展过程

    1 Knowledge-base representation

    语言学家将词与词之间连接起来,构成一个wordNet,每个词由其他词链接表示。

    python里边有一个这样的库:

    image

    缺点:无法表示词库中没有的词、主观的语言学家、只是链接到底链接多紧密呢?、计算相似性也困难

    2 Corpus -based representation 语料库

    2.1 开始是,构建语料库-->one-hot,缺点就是太长、太稀疏、词间无关联

    2.2 然后是考虑上下文的:High-dimensional sparse word vactor 高维稀疏矩阵词向量;

     Neighbor-based representation  基于邻词的表示,如:Co-occurrence matrix gives
    
    image

    Neighbor definiton,缺点还是稀疏,维度太高,鲁棒性太差

    2.3 然后是Low-dimensional dense word vector 低维稠密矩阵

    2.3.1 有两种方法一种是利用SVD奇异值分解的降维方法;缺点是计算量太大,很难添加新词

    2.3.2 一种是利用学习的方法:目前主流的方法

    image

    相对于基于词频的向量表示,神经网络的优势示例:

    神经网络是基于向量空间的距离的,也就是基于上下文逻辑的。频数是基于语料库的,还是有局限性。

    image

    相关文章

      网友评论

          本文标题:20201021-词的向量转换的发展过程

          本文链接:https://www.haomeiwen.com/subject/eaxemktx.html