1.问题描述
给定一个数据集,数据集中所有的样本点都对应一个类标签
,其中随机变量
,随机变量
现任给一个样本点,朴素贝叶斯将分别求出
属于每个类别的概率
,然后选择对应概率最大的
作为该样本点的类别
2.条件概率
根据条件概率,有
这里我们将看成事件
,将
视作事件
,那么
可变形为
3.全概率公式
根据全概率公式,有
这里的事件A被拆分成n个独立事件
于是我们将(2)式中的分母按照全概率公式展开,得到
观察(4)式发现,推导到这一步,要计算样本点的类别,其实就只需要计算
和
了
4. 朴素贝叶斯为什么“朴素”?
先将放一放,来看看如何计算
。由于数据集中的
是一个
维特征向量,所以
如果假设特征向量的任意一个特征
的取值有
种,
,
,类别标签
又有K种,即
。那么要直观去计算
需要
个参数,和决策树一样,实际情况不可能有这么多数据。
为了极大地简化计算,朴素贝叶斯算法在这里做了最为朴素最为简单的假设:特征条件独立假设。这就是朴素一词的由来[1]。即假设所有特征之间是独立并且同等重要的。
根据特征条件独立假设,(5)式便可化简为:
将(4)(6)组合,得朴素贝叶斯最终的计算公式:
到这里求解就只需要求解
和
就可以了。
5.最大似然估计
在给定数据集的基础上,使用最大似然估计来求解和
,假设训练集的数量为N,借用指示函数
来统计满足
的个数如下所示:
至此,朴素贝叶斯已经可以直接计算出任一样本点属于各个类别的概率了,即在给定样本点
的情况下,类别标签为
的概率
。
网友评论