Jieba分词原理与解析

作者: 林桉 | 来源:发表于2019-02-08 16:15 被阅读59次

1 HMM模型

image.png

马尔科夫过程:

image.png
image.png
  • 以天气判断为例:引出隐马尔科夫模型


    image.png
    image.png

以天气判断为例:由海藻信息推测天气

image.png

于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

  • 马尔科夫假设


    image.png
    image.png
    image.png
    image.png

2 三个问题

image.png
image.png
image.png
image.png
image.png
image.png
image.png
  • 源码架构
    ├── jieba
    │ ├── analyse
    │ │ ├── analyzer.py
    │ │ ├── idf.txt
    │ │ ├── init.py
    │ │ ├── textrank.py
    │ │ └── tfidf.py
    │ ├── _compat.py
    │ ├── dict.txt
    │ ├── finalseg
    │ │ ├── init.py
    │ │ ├── prob_emit.p
    │ │ ├── prob_emit.py
    │ │ ├── prob_start.p
    │ │ ├── prob_start.py
    │ │ ├── prob_trans.p
    │ │ └── prob_trans.py
    │ ├── init.py
    │ ├── main.py
    │ └── posseg
    │ ├── char_state_tab.p
    │ ├── char_state_tab.py
    │ ├── init.py
    │ ├── prob_emit.p
    │ ├── prob_emit.py
    │ ├── prob_start.p
    │ ├── prob_start.py
    │ ├── prob_trans.p
    │ ├── prob_trans.py
    │ └── viterbi.py
    ├── LICENSE
    ├── MANIFEST.in
    ├── README.md
    ├── setup.py
    └── test
image.png

3 Jieba源码分块解析

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

Jieba应用实践

image.png
image.png
image.png
image.png
image.png

小白学习 无关利益

感谢:

隐马尔可夫模型(HMM)攻略
HMM的(五个基本要素,三个假设,三个解决的问题)
HMM学习最佳范例七:前向-后向算法3
中文分词技术(中文分词原理)
鬼吹灯文本挖掘
https://blog.csdn.net/zhuzuwei/article/details/80775078

相关文章

  • Jieba分词原理与解析

    1 HMM模型 马尔科夫过程: 以天气判断为例:引出隐马尔科夫模型image.pngimage.png 以天气判断...

  • 关于python中jieba第三方库的使用

    jieba库是优秀的中文分词第三方库。 通过 进行安装。 jieba中文分词的原理:通过中文词库的方式来识别分词。...

  • jieba 分词原理

    jieba 分词主要包含以下步骤: 根据 dict.txt 词典生成 Trie 树,对待分词的句子,依据 Trie...

  • jieba 分词原理

    基本原理 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);用前缀字典...

  • jieba分词

    参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • 中文分词

    用过的中文分词有jieba,hanlp,word,grid,standford.nlp。 从分词原理的直接到间接说...

  • jieba 源码解析

    阅读动机 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细...

  • Python中的jieba 源码解析

    前言 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对...

  • 中文分词库——jieba

    jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的...

网友评论

    本文标题:Jieba分词原理与解析

    本文链接:https://www.haomeiwen.com/subject/jzvndqtx.html