美文网首页
Naive Bayes

Naive Bayes

作者: BigPeter | 来源:发表于2018-12-16 13:46 被阅读0次

概述


朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。首先根据特征条件独立假设计算出x,y的联合概率分布,然后利用贝叶斯定理找到后验概率最大的y。

模型


朴素贝叶斯不同于判别模型直接在特征空间中建模条件分布P(Y|X),而是先建模P(X,Y)然后根据贝叶斯定理得到后验概率分布P(Y|X),属于生成式模型。生成式模型认为样本是这样得到的:先得到Y(类别),然后根据P(X|Y)生成观测值X。

贝叶斯定理

P(Y|X)=\frac {P(X|Y)P(Y)}{P(X)}

其中P(X|Y)是观察到Y后X的概率,P(Y)是先验概率(不考虑任何X的影响),P(Y|X)是Y的后验概率。

X \in R^n,因此

\begin{align*}P(Y|X=x)&=\frac{P(X=x|Y)P(Y)}{P(X=x)} \\&\propto P(x_1, x_2, \ldots, x_n|Y)P(Y) \\&=P(x_i)P(x_2|x_1) \ldots P(x_n|x_1, x_2, \ldots, x_{n-1})P(Y)\end{align*}

假设x_i可以取K个离散值,y可以取L个值,上面的模型需要估计LK^n个参数,随着n指数级增长,当n比较大时参数数量爆炸大,会出现问题:计算问题,无法在可承受的时间内有效计算;样本数不够,模型过于复杂,发生过拟合。

朴素贝叶斯使用下面假设来解决参数爆炸问题:在给定Y的情况下,特征值相互独立,即条件独立假设(如果没有观察到Y,特征值之间不一定独立)。因此模型成为

\begin{align*}P(Y|X=x)&=\frac{P(X=x|Y)P(Y)}{P(X=x)} \\&\propto P(x_1, x_2, \ldots, x_n|Y)P(Y) \\&=P(x_i)P(x_2|x_1) \ldots P(x_n|x_1, x_2, \ldots, x_{n-1})P(Y)  \\&=P(x_i)P(x_2) \ldots P(x_n)P(Y)\end{align*}

此时参数线性增长。

使用概率图模型,朴素贝叶斯可以表示成

模型学习


使用最大似然进行参数估计

数据平滑


用极大似然估计可能会出现要估计的概率值为0的情况(样本集不是全集),此时需要使用数据平滑技术来纠正概率来得到更正确的概率分布。"平滑"处理的基本思想是劫富济贫,即提高低概率,降低高概率。【宗成庆老师的统计自然语言处理一书的第5章有论述各种平滑方法的优缺点】

加法平滑(additive smoothing)

P(X=x_i)_{add}=\frac{count(x_i)+\delta}{N+\delta k},0 \leq \delta \leq 1,k=|X|

拉普拉斯平滑(Laplace Smoothing)

P(X=x_i)=\frac{count(x_i)+1}{N+k}

古德-图灵估计法(Good-Turing)

Katz Smoothing

Jelinek_mercer Smoothing

Witten-Bell Smoothing

绝对值减法(absoute discounting)

Kneser-Ney Smoothing

相关文章

网友评论

      本文标题:Naive Bayes

      本文链接:https://www.haomeiwen.com/subject/uurihqtx.html