美文网首页数据挖掘
机器学习读书笔记 — 朴素贝叶斯

机器学习读书笔记 — 朴素贝叶斯

作者: 爱秋刀鱼的猫 | 来源:发表于2018-01-27 15:45 被阅读11次

    什么是贝叶斯定理?


    在贝叶斯定理中,每个名词都有约定俗成的名称:
    • P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
    • P(A)是A的先验概率(或边缘概率)。之所以称为"先验"是因为它不考虑任何B方面的因素。
    • P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
    • P(B)是B的先验概率或边缘概率。

    举个例子:
    两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

    我们假定,H1表示一号碗,H2表示二号碗。由于这两个碗是一样的,所以P(H1)=P(H2),也就是说,在取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率就叫做"先验概率",即没有做实验之前,来自一号碗的概率是0.5。

    再假定,E表示水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多大,即求P(H1|E)。我们把这个概率叫做"后验概率",即在E事件发生之后,对P(H1)的修正。


    这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。

    朴素贝叶斯定理的应用
    对于如下的数据集,求 x=(2,s)的类的标记。

    对于这个问题,也就是求解:

    p( y= 1 | X = (2,s) )
    p( y=-1 | X = (2,s) )

    那个概率值更大,就去哪一个。

    两个公式展开,分别如下:


    因为上述的分母是相同的,所以只需要比较分子的大小,即:


    求解的过程:


    基于贝叶斯的垃圾邮件分类

    todo


    参考文献
    阮一峰的bolg: http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html

    李航 《统计学习方法》

    相关文章

      网友评论

        本文标题:机器学习读书笔记 — 朴素贝叶斯

        本文链接:https://www.haomeiwen.com/subject/negbaxtx.html