美文网首页
机器学习笔记(11):贝叶斯学习(1)

机器学习笔记(11):贝叶斯学习(1)

作者: 链原力 | 来源:发表于2020-03-05 00:17 被阅读0次

    本文来自之前在Udacity上自学机器学习的系列笔记。这是第11篇,介绍了监督学习中的贝叶斯学习模型(1)。

    朴素贝叶斯
    朴素贝叶斯是一个分类模型,如下图所示,有正反两类样本数据点,该模型寻找出一个决策边界正确地将两类数据分隔开来。模型的背后是贝叶斯规则。

    image.png

    在sklearn上面有参考的代码:

    https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html?highlight=gaussian#sklearn.naive_bayes.GaussianNB

    贝叶斯规则
    我们通过一个例子来说明这个规则。
    假定一种特殊癌症发生率为人口的1%,P(C)=0.01
    这个概率称为先验概率。
    如果一个人患该癌症,通过测试检测为阳性的概率为90%(敏感性测试)
    如果一个人并没有患该癌症,通过测试检测为阴性的概率为90%(特异性测试)
    那么,如果在不知道是否换该癌症的前提下,通过测试发现为阳性,那么患该癌症的概率是多少呢?
    答案大概是8.33%。下面我们来计算一下。

    image.png

    先验概率是:
    P(C)=0.01, \quad P(\overline C)=0.99
    P(Positive|C)=0.9, \quad P(Negative|\overline C)=0.9

    联合概率是:
    P(C, Positve)=P(C) \centerdot P(Positive|C)=0.009
    P(\overline C, Positive)=P(\overline C) \centerdot P(Postive | \overline C)=0.099

    归一化:

    P(Positive)=P(C, Positive)+P(\overline C, Positive)=0.108

    后验概率是:
    P(C|Positve)=\frac {P(C, Postive)}{P(Positive)} =0.0833
    P(\overline C|Positve)=\frac {P(\overline C, Positve)}{P(Positve)}=0.9167

    上述计算过程就是贝叶斯规则,应用该规则的领域有很多,比如说学习文档和文本的分类。所使用的的方法叫做朴素贝叶斯(Naive Bayes)。为什么叫“朴素”呢?

    比如说下面要给一篇文本分类,判断是属于A还是B,比如说是属于文艺类还是科技类文章。

    image.png

    朴素贝叶斯的做法就是将文本包含的单词进行统计,然后计算出先验概率。因为模型已经经过大量文本的训练,知道了在某些特定单词出现概率比较大的情况下,对应的文本是什么类别的。所以,可以通过计算得到未知文本属于A和B的概率大小,然后选择大的作为未知文本的类别。

    因为朴素贝叶斯模型并没有考虑文本的单词的顺序,它并没有真正地读懂文本的内容,所以称为“朴素”。

    相关文章

      网友评论

          本文标题:机器学习笔记(11):贝叶斯学习(1)

          本文链接:https://www.haomeiwen.com/subject/ixiglhtx.html