美文网首页算法小白菜
Jieba分词原理浅析与应用(上)

Jieba分词原理浅析与应用(上)

作者: 林桉 | 来源:发表于2018-09-12 00:01 被阅读126次

    (一)HMM模型

    马尔科夫模型

    假设这个模型的每个状态都只依赖于前一个的状态,这个假设被称为马尔科夫假设。


    image.png
    • 马尔科夫过程:
      马尔可夫链是随机变量X1,…,Xn的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn+1对于过去状态的条件概率分布仅是Xn的一个函数,则


      image.png
    • 隐马尔科夫模型
      以天气判断为例:引出隐马尔科夫模型


      天气实例

      状态:晴天、阴天和下雨
      初始向量:定义系统在时间为0的时候的状态的概率
      状态转移矩阵:每种天气转换的概率

    • 以天气判断为例:由海藻信息推测天气


      image.png

      于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
      隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

    • 马尔科夫假设


      image.png
    • 五元模型:{ N, M, π,A,B}


      五元模型
      image.png

    (二)三个问题

    image.png
    • 前向算法
      给定一个模型,如何计算某个特定的输出序列的概率:前向算法


      image.png
    • 维特比算法
      根据可观察状态的序列找到一个最可能的隐藏状态序列:Viterbi算法


      image.png
    • Baum—Welch 算法
      给定足够量的观测数据,如何估计隐含马尔可夫模型的参数:Baum—Welch 算法


      image.png

      隐马尔科夫模型(HMM)的三个基本问题中,第三个HMM参数学习的问题是最难的,因为对于给定的观察序列O,没有任何一种方法可以精确地找到一组最优的隐马尔科夫模型参数(A、B、𝜋)使P(O|𝜆)最大。因而,学者们退而求其次,不能使P(O|𝜆)全局最优,就寻求使其局部最优(最大化)。


      image.png
      给定观察序列O及隐马尔科夫模型,定义t时刻位于隐藏状态Si及t+1时刻位于隐藏状态Sj的概率变量为:
      概率变量
      image.png
    • 求解框架


      image.png

    小白学习 无关利益

    感谢:

    隐马尔可夫模型(HMM)攻略
    HMM的(五个基本要素,三个假设,三个解决的问题)
    HMM学习最佳范例七:前向-后向算法3
    中文分词技术(中文分词原理)

    相关文章

      网友评论

        本文标题:Jieba分词原理浅析与应用(上)

        本文链接:https://www.haomeiwen.com/subject/dfmpgftx.html