自然语言处理N天-Day0801从自然语言处理角度看HMM和CR

作者: 我的昵称违规了 | 来源:发表于2019-02-16 16:43 被阅读4次

自然语言处理N天-Day0801从自然语言处理角度看HMM和CR
自然语言处理N天-Day0801从自然语言处理角度看HMM和CR
自然语言处理N天-Day0802从自然语言处理角度看HMM和CR
利用传统方法（N-gram，HMM等）、神经网络方法（CNN，L
自然语言处理之路：方法——深度学习基础
自然语言处理之路：方法——机器学习基础
自然语言处理之路：工具——七种兵器
外行也能看懂的科普：这就叫自然语言处理
NLP第21课：中文自然语言处理的应用、现状和未来
NLP科普文1——应用场景

新建 Microsoft PowerPoint 演示文稿 (2).jpg

说明：本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程，我是从GitChat上购买。

近几年在自然语言处理领域中，HMM（隐马尔可夫模型）和 CRF（条件随机场）算法常常被用于分词、句法分析、命名实体识别、词性标注等。
由于两者之间有很大的共同点，所以在很多应用上往往是重叠的，但在命名实体、句法分析等领域 CRF 似乎更胜一筹。通常来说如果做自然语言处理，这两个模型应该都要了解，下面我们来看看本文的内容。

第八课从自然语言处理角度看HMM和CRF

贝叶斯定义理解生成式模型和判别式模型

HMM：隐马尔可夫模型
CRF：条件随机场

在这里引入了生成式模型、判别式模型以及贝叶斯模型的概念。
若记 P(A)、P(B) 分别表示事件 A 和事件 B 发生的概率，则 P(A|B) 表示事件 B 发生的情况下事件 A 发生的概率；P(AB)表示事件 A 和事件 B 同时发生的概率。
贝叶斯公式
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$ 即是说，事件B发生的情况下事件A发生的概率，是（事件A发生的情况下事件B发生的概率）*（事件A发生的概率）/（事件B发生的概率）。

生成式模型
$P(B,A)=P(B|A)*P(A)$
生成式模型处理的是联合概率分布。由联合概率密度分布 $P(A,B)$ 求出条件概率分布 $P(B|A)$ ，生成模型公式为
$P(B|A)=\frac{P(A,B)}{P(A)}$
基本思想是首先建立样本的联合概率密度模型 P(A,B)，然后再得到后验概率 P(B|A)，再利用它进行分类，其主要关心的是给定输入A产生输出B的生成关系。
其他常见的生成式模型有：Gaussian、 Naive Bayes、Mixtures of multinomials 等。

判别式模型
估计的是条件概率分布 $P(B|A)$ ，给定观测变量A和目标变量B的条件模型，由数据直接学习决策函数 $Y=f(X)$ 或者条件概率分布 $P(B|A)$ 作为预测的模型，其主要关心的是对于给定的输入 A，应该预测什么样的输出 B。
其他常见的判别式模型有：K 近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法等

HMM使用隐含变量生成可观测状态，其生成概率有标注集统计得到，是一个生成模型。
CRF使用反向HMM，通过可观测状态判别隐含变量，其概率亦通过标注集统计得来，是一个判别模型。

教程罗里吧嗦讲了一大堆其实就是这样的：

有监督机器学习方法可以分为生成方法和判别方法。
常见的生成方法有LDA主题模型、朴素贝叶斯算法和隐式马尔科夫模型等；
常见的判别方法有SVM、LR等。
生成方法学习出的是生成模型，判别方法学习出的是判别模型。
生成模型通过学习先验分布来推导后验分布，最终完成分类。
判别模型通过学习后验分布来进行分类

接下来，教程分别使用HMM和CRF实现了一个中文分词器，下一节我希望可以完成，并与HanLP进行对比。