矩阵分解法
构造矩阵X 形状式词库size×词库size
分解后得到S\V\D, 其中S矩阵就是词向量
坏处是 矩阵分解是全局方法,分解的过程依赖于所有的语料库,一旦语料库变了,X就变了。不方便做增量更新。
矩阵分解法
Glove 一个融合矩阵分解(全局)和SkipGram模型(局部)的方法
Huffman编码
构建词表的一种方法:
词频越高,节点所处的层数越小,希望越快查找到(从根节点出发)。
较小值放在右边。
1)所以先找最小的top2词,词频分别是1和3
2)1+3 = 4 得到上一级的节点值
3)构造好一棵树后进行huffman编码,保证高频词码长越短。
huffman编码
网友评论