美文网首页
2021-04-19 ch9 词向量技术

2021-04-19 ch9 词向量技术

作者: 柠樂helen | 来源:发表于2021-05-08 20:39 被阅读0次

    矩阵分解法

    构造矩阵X 形状式词库size×词库size
    分解后得到S\V\D, 其中S矩阵就是词向量
    坏处是 矩阵分解是全局方法,分解的过程依赖于所有的语料库,一旦语料库变了,X就变了。不方便做增量更新。


    矩阵分解法

    Glove 一个融合矩阵分解(全局)和SkipGram模型(局部)的方法

    Huffman编码

    构建词表的一种方法:
    词频越高,节点所处的层数越小,希望越快查找到(从根节点出发)。
    较小值放在右边。
    1)所以先找最小的top2词,词频分别是1和3
    2)1+3 = 4 得到上一级的节点值
    3)构造好一棵树后进行huffman编码,保证高频词码长越短。

    构建huffman树
    huffman编码

    相关文章

      网友评论

          本文标题:2021-04-19 ch9 词向量技术

          本文链接:https://www.haomeiwen.com/subject/zsbwlltx.html