朴素贝叶斯

作者: 乔治大叔 | 来源:发表于2019-10-22 09:33 被阅读0次

    一、简介

    朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。

    二、朴素贝叶斯理论
    朴素贝叶斯是贝叶斯决策理论的一部分,所以在讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。传送门:https://www.jianshu.com/p/fd9bbfb62f71

    理解了贝叶斯推断,那么让我们继续看看朴素贝叶斯。贝叶斯和朴素贝叶斯的概念是不同的,区别就在于“朴素”二字,朴素贝叶斯对条件个概率分布做了条件独立性的假设。 比如下面的公式,假设有n个特征:

    19.jpg

    由于每个特征都是独立的,我们可以进一步拆分公式 :

    20.jpg

    这样我们就可以进行计算了。如果有些迷糊,让我们从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。

    某个医院早上来了六个门诊的病人,他们的情况如下表所示:


    21.jpg

    现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?

    根据贝叶斯定理:

    22.jpg

    可得:

    23.png

    根据朴素贝叶斯条件独立性的假设可知,"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了

    24.jpg

    这里可以计算:

    25.jpg

    因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。

    这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。

    优缺点

    朴素贝叶斯推断的一些优点:

    生成式模型,通过计算概率来进行分类,可以用来处理多分类问题。
    对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。

    朴素贝叶斯推断的一些缺点:

    对输入数据的表达形式很敏感。
    由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失。
    需要计算先验概率,分类决策存在错误率。

    写在最后:感谢崔嘉华老师的无私指导和分享。

    相关文章

      网友评论

        本文标题:朴素贝叶斯

        本文链接:https://www.haomeiwen.com/subject/ejrtvctx.html