Jieba分词原理与解析

作者: 林桉 | 来源:发表于2019-02-08 16:15 被阅读59次

    1 HMM模型

    image.png

    马尔科夫过程:

    image.png
    image.png
    • 以天气判断为例:引出隐马尔科夫模型


      image.png
      image.png

    以天气判断为例:由海藻信息推测天气

    image.png

    于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
    隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

    • 马尔科夫假设


      image.png
      image.png
      image.png
      image.png

    2 三个问题

    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    • 源码架构
      ├── jieba
      │ ├── analyse
      │ │ ├── analyzer.py
      │ │ ├── idf.txt
      │ │ ├── init.py
      │ │ ├── textrank.py
      │ │ └── tfidf.py
      │ ├── _compat.py
      │ ├── dict.txt
      │ ├── finalseg
      │ │ ├── init.py
      │ │ ├── prob_emit.p
      │ │ ├── prob_emit.py
      │ │ ├── prob_start.p
      │ │ ├── prob_start.py
      │ │ ├── prob_trans.p
      │ │ └── prob_trans.py
      │ ├── init.py
      │ ├── main.py
      │ └── posseg
      │ ├── char_state_tab.p
      │ ├── char_state_tab.py
      │ ├── init.py
      │ ├── prob_emit.p
      │ ├── prob_emit.py
      │ ├── prob_start.p
      │ ├── prob_start.py
      │ ├── prob_trans.p
      │ ├── prob_trans.py
      │ └── viterbi.py
      ├── LICENSE
      ├── MANIFEST.in
      ├── README.md
      ├── setup.py
      └── test
    image.png

    3 Jieba源码分块解析

    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png

    Jieba应用实践

    image.png
    image.png
    image.png
    image.png
    image.png

    小白学习 无关利益

    感谢:

    隐马尔可夫模型(HMM)攻略
    HMM的(五个基本要素,三个假设,三个解决的问题)
    HMM学习最佳范例七:前向-后向算法3
    中文分词技术(中文分词原理)
    鬼吹灯文本挖掘
    https://blog.csdn.net/zhuzuwei/article/details/80775078

    相关文章

      网友评论

        本文标题:Jieba分词原理与解析

        本文链接:https://www.haomeiwen.com/subject/jzvndqtx.html