美文网首页
jieba 分词原理

jieba 分词原理

作者: dreampai | 来源:发表于2019-04-28 14:51 被阅读0次

jieba 分词主要包含以下步骤:

  • 根据 dict.txt 词典生成 Trie 树,对待分词的句子,依据 Trie 树生成 DAG(有向无环图)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

Jieba 分词结合了基于规则和基于统计两种方法。

  • 首先基于前缀词典进行词图扫描。因此,基于前缀词典可以快速构建包含全部可能分词结果的有向无环图,这个图中包含多条分词路径。
  • 基于标注语料,使用动态规划的方法可以找出最大概率路径,并将其作为最终的分词结果。
  • 对于未登录词,Jieba 是用了基于汉字成词的 HMM 模型,采用 Viterbi 算法进行推导。

Trie 树结构:

image.png

相关文章

  • 关于python中jieba第三方库的使用

    jieba库是优秀的中文分词第三方库。 通过 进行安装。 jieba中文分词的原理:通过中文词库的方式来识别分词。...

  • jieba 分词原理

    jieba 分词主要包含以下步骤: 根据 dict.txt 词典生成 Trie 树,对待分词的句子,依据 Trie...

  • jieba 分词原理

    基本原理 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);用前缀字典...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • 中文分词

    用过的中文分词有jieba,hanlp,word,grid,standford.nlp。 从分词原理的直接到间接说...

  • jieba 源码解析

    阅读动机 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细...

  • Python中的jieba 源码解析

    前言 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

网友评论

      本文标题:jieba 分词原理

      本文链接:https://www.haomeiwen.com/subject/goldnqtx.html