美文网首页
理解朴素贝叶斯

理解朴素贝叶斯

作者: 一位学有余力的同学 | 来源:发表于2021-01-27 18:06 被阅读0次

    1.贝叶斯公式的推导


    在古典概型中,已知A事件发生,则B也发生的概率计算公式为:
    P(B|A)=\frac{P(AB)}{P(A)}
    经过变型可以得到如下公式①:
    P(AB)=P(B|A)*P(A)
    同理,已知B事件发生,则A也发生的概率为:
    P(A|B)=\frac{P(AB)}{P(B)}
    经过变换可以得到公式②:
    P(AB)=P(A|B)*P(B)
    将公式①和公式②结合,可以得到:
    P(AB)=P(B|A)*P(A)=P(A|B)*P(B)
    由此可得到贝叶斯公式:
    P(A|B)=\frac{P(B|A)*P(A)}{P(B)}
    贝叶斯公式又被称为贝叶斯定理、贝叶斯规则,是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
    P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
    P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
    P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
    P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

    例子
    A,B两人进行射击,A命中的概率为0.6,B命中的概率为0.5,已知目标被命中,问是A命中的概率是多少?其中命中目标被记为事件C。
    计算:P(A|C)=\frac{P(C|A)P(A)}{P(C)}=\frac{1*0.6}{0.6*0.5+0.4*0.5+0.6*0.5}=\frac{3}{4}

    2.使用贝叶斯公式进行分类

    那么我们如何使用贝叶斯公式进行分类问题呢?假设有一个二分类问题,已知样本特征x,我们需要知道它所属类别{c1, c2},当:
    P(c1|x)>P(c2|x)时,样本x的预测类别为c1;
    P(c1|x)<P(c2|x)时,样本x的预测类别为c2;

    对于一般的分类问题,我们已知待分类问题的若干特征,需要求它所属类别,转换成条件概率的形式为: P(类别|特征),根据贝叶斯公式可以得到:
    P(类别|特征)=\frac{P(特征|类别)P(类别)}{P(特征)}
    其中,P(类别)是先验概率(我们可以从训练集中统计出来);
    P(特征|类别)是样本(特征)相对于类标签(类别)的似然估计;
    P(特征)与类标签无关,在给定样本的情况下是一个已知量。所以我们只需要求得P(特征|类别)和P(类别)即可。

    3.朴素贝叶斯

    然而在实际情况中特征肯定有很多种,例如某问卷收集到的心仪男生衡量标准有四个维度:

    身高 财富 学历 颜值 是否心动
    一般
    一般
    一般

    则使用贝叶斯公式对是否会对男生心动的预测公式可以写成:
    P(类别|身高,财富,学历,颜值)=\frac{P(身高,财富,学历,颜值|类别)P(类别)}{P(身高,财富,学历,颜值)}
    身高有{高,矮}两种情况,财富有{富,穷}两种情况,学历有{高,低}两种情况,颜值有{帅,一般,丑}三种情况,那么总共就有222*3=24种可能的样本,后验概率P(身高,财富,学历,颜值|类别)就需要P(高,富,高,丑|心动)、P(矮,富,高,丑|心动)、P(高,穷,高,丑|心动)、……分别求一遍,然后在有些情况下特征类别很多,所有都计算一遍的工作量是十分巨大的,并且结果还很稀疏(因为有些情况实际数据中并没有)。

    如果我们假设身高、财富、学历、颜值这四个特征相互独立(仅仅只是假设),根据概率统计中性质,似然估计可以写成如下形式:
    P(身高,财富,学历,颜值|类别)=P(身高|类别)*P(财富|类别)*P(学历|类别)*P(颜值|类别)
    这样以来,计算工作就简单了很多。也正是由于采用了属性相互独立这一假设前提,所以我们称之为朴素贝叶斯(Navie Bayes)。

    相关文章

      网友评论

          本文标题:理解朴素贝叶斯

          本文链接:https://www.haomeiwen.com/subject/pzbizktx.html