·本文最早发表在本人博客:http://www.gotoli.us/?p=173
朴素贝叶斯分类器是一种应用贝叶斯定理的分类器。线性分类器是通过特征的线性组合来做出分类决定的分类器。本质上,朴素贝叶斯分类器是一种线性分类器。朴素贝叶斯分类器是建立在属性变量相互独立的基础上,后验概率为判定准则的分类器。不等式1成立,则样例x=[x_1,...,x_n]为正类。否则,样例为负类。
线性分类器直观地来说,是在高维样本空间中找到一组超平面,将样本空间划分了两个区域。每个区域对应于不同的类别。数学上来说,线性分类器能找到权值向量w,使得判别公式可以写成特征值的线性加权组合。
(2) Rendered by QuickLaTeX.com如果公式2成立,则样本属于正类;反之,则样本属于负类。
离散特征的朴素贝叶斯分类器
一般离散特征的取值范围有两种,{-1,1}或者{0,1}。这两种取值方式不会影响分析。不妨假设离散特征的取值范围为{-1,1}。下面的不等式成立,样例x=[x_1,...,x_n]为正类。
(3)
Rendered by QuickLaTeX.com
对于某个特征x,我们很容易推导出下面的公式
其中p(x|F)也有类似的结果,从而有
(5)
Rendered by QuickLaTeX.com
将公式5带入朴素贝叶斯分类器的公式3,得到下面的公式
(6)
Rendered by QuickLaTeX.com
根据公式6,离散特征的朴素贝叶斯分类器判别公式能够写成特征值的加权线性组合。也就是说,离散特征的朴素贝叶斯分类器本质上是线性分类器。
连续特征的朴素贝叶斯分类器
朴素贝叶斯分类器也适用于连续特征。一般情况下,连续特征的朴素贝叶斯分类假设条件概率p(x|T)满足高斯分布。
如果同一个特征的条件概率方差相同,连续特征的朴素贝叶斯分类器也是线性分类器。条件概率的方差是指,在不同类别的条件下某属性值成立的条件概率的方差相同。
因此我们有
方差相同的情况下,连续特征的朴素贝叶斯分类器可以写成特征值的线性加权组合。方差相同的情况下,连续特征的朴素贝叶斯分布本质上是线性分类器。直观上看,方差相同的情况下,两个类别的特征和类别的联合分布(即p(x|T)p(T)和p(x|F)*p(F))如下图的左图所示。判别准则其实就是下图右图中的黑色直线。
不是线性分类器的朴素贝叶斯分类器
其实并不是所有的朴素贝叶斯分类器都是线性分类器。如果连续特征的朴素贝叶斯分类器中方差不相同,那我们就会发现判别公式不能写成特征值的线性加权组合。
上面的不等式表明,方差不相等的情况下,连续特征的朴素贝叶斯分类器判别公式不能写成特征值的线性加权组合(判别公式与特征值x_i的二次方有关)。上述例子表明,只有某些具有特定属性的朴素贝叶斯分类器才是线性分类器。
网友评论