原理:朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:

这个公式虽然看上去简单,但它却能总结历史,预知未来:公式右边总结历史,公式左边预测未来
如果把Y看成类别,X看成特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。
朴素的概念:独立性假设,假设各个特征之间是独立不相关的。
优点:
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;
对小规模的数据表现很好;
能处理多分类任务,适合增量式训练;
对缺失数据不太敏感,算法也比较简单,常用于文本分类
缺点:
只能用于分类问题
需要计算先验概率;
分类决策存在错误率;
对输入数据的表达形式很敏感
一、高斯分布朴素贝叶斯
from sklearn.naive_bayes import GaussianNB
用途:用于一般分类问题
二、多项式分布朴素贝叶斯
from sklearn.naive_bayes import MultinomialNB
多项式分布:

用途:适用于文本数据(特征表示的是次数,例如某个词语的出现次数)
三、伯努利分布朴素贝叶斯
from sklearn.naive_bayes import BernoulliNB
伯努利分布:

用途:适用于伯努利分布,也适用于文本数据(此时特征表示的是是否出现,例如某个词语的出现为1,不出现为0)。绝大多数情况下表现不如多项式分布,但有的时候伯努利分布表现得要比多项式分布要好,尤其是对于小数量级的文本数据
from sklearn.naive_bayes import BernoulliNB
网友评论