美文网首页
朴素贝叶斯算法

朴素贝叶斯算法

作者: 田浩thao | 来源:发表于2019-06-08 14:19 被阅读0次

    1、前言

        朴素贝叶斯方法的实现相对简单,但是学习与预测的效率较高,该算法是除了集成学习算法之外较为常用的一种算法。

    2、基本概念

        想要理解该算法,需知道以下几个概念。

    2.1 联合概率

        联合概率就是指多个变量同时成立的概率。记作:P(X=a,Y=b)或P(AB),意为,当变量X取a,变量Y取b时的概率。

    2.2 边缘概率

        边缘概率就是只与某一个变量相关的概率,如:P(X=a)或P(Y=b)。
    与联合概率的关系为:
    P(X=a)=\sum_{b} P(X=a, Y=b)
    P(Y=b)=\sum_{a} P(X=a, Y=b)

    2.3 条件概率

        条件概率就是已知某个变量的取值时,另外一个变量的取某值的概率,也就是在Y=b成立的前提下,X=a的概率,记作,P(X=a|Y=b),或P(A|B)

    2.4 贝叶斯公式

        首先给出上述三个概率关系公式:
    P(X=a | Y=b)=\frac{P(X=a, Y=b)}{P(Y=b)}
    理解:上式等价于
    P(X=a, Y=b) = {P(Y=b)}*P(X=a | Y=b)
    等式左边:X=a,Y=b都发生的概率;
    等式右边:Y=b发生的情况下,X=a发生概率,乘以Y=b发生的概率。
    作图说明:


    X=a,Y=b发生的概率就等于在Y=b发生的条件下,X=a发生的概率,但是Y=b发生也是有概率的,所以要乘以Y=b发生的概率。
    同样可得:

    根据以上公式,可得(贝叶斯公式):

    其中(以下内容来自https://www.jianshu.com/p/c59851b1c0f3):

    (1)P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。

    (2)P(A|B)是已知B发生后A的条件概率(或称为“释然”),由于已知B的取值而被称作A的后验概率。

    (3)P(B|A)是已知A发生后B的条件概率(或称为“释然”),由于已知A的取值而被称作B的后验概率。

    (4)P(B)是B的先验概率或边缘概率,也作标准化常量。

    3、贝叶斯分类器通俗理解

        在实际分类器中,贝叶斯公式变为:
    P(类别 | 属性)=\frac{P(属性 | 类别) P(类别)}{P(属性)}
    例如:
    有类别0、1,属性A、B、C
    P(类别0 | 属性A,属性B,属性C)=\frac{P(属性A,属性B,属性C | 类别0) P(类别0)}{P(属性A,属性B,属性C)}
    理解:
    1)最终求得是给定各个属性(A、B、C)的取值,求该样本属于某个类别的概率;

    2)如果各个属性独立(这也是“朴素”二字来源),则P(属性A,属性B,属性C | 类别0)=P(属性A | 类别0)*P(属性B | 类别0)*P(属性C | 类别0);以上只是简单理解,在真实分类器中,该概率是利用极大释然估计求解出来,详见https://blog.csdn.net/qq_39355550/article/details/81809467

    3)P(类别)根据大数定理可知,训练样本包含足够多的独立分布时,P(类别)可以用其在训练样本中的频率代替;

    4)P(属性A,属性B,属性C)与类别无关,如果属性独立,则直接用各个属性频率相乘(P(属性A)*P(属性B)*P(属性C))进行代替;

    5)根据以上分析,P(类别 | 属性)便可以通过贝叶斯公式求得,最终比较在已知的属性下,各个类别的概率大小,即可确定最终样本的类别。

    相关文章

      网友评论

          本文标题:朴素贝叶斯算法

          本文链接:https://www.haomeiwen.com/subject/tiabxctx.html