美文网首页
jieba 分词原理

jieba 分词原理

作者: dreampai | 来源:发表于2021-05-17 16:58 被阅读0次

    基本原理

    1. 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);
      用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,想想也是,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重
    2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;
    3. 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

    参考链接

    相关文章

      网友评论

          本文标题:jieba 分词原理

          本文链接:https://www.haomeiwen.com/subject/wrwjjltx.html