本文来自之前在Udacity上自学机器学习的系列笔记。这是第11篇,介绍了监督学习中的贝叶斯学习模型(1)。
朴素贝叶斯
朴素贝叶斯是一个分类模型,如下图所示,有正反两类样本数据点,该模型寻找出一个决策边界正确地将两类数据分隔开来。模型的背后是贝叶斯规则。
在sklearn上面有参考的代码:
贝叶斯规则
我们通过一个例子来说明这个规则。
假定一种特殊癌症发生率为人口的1%,。
这个概率称为先验概率。
如果一个人患该癌症,通过测试检测为阳性的概率为90%(敏感性测试)
如果一个人并没有患该癌症,通过测试检测为阴性的概率为90%(特异性测试)
那么,如果在不知道是否换该癌症的前提下,通过测试发现为阳性,那么患该癌症的概率是多少呢?
答案大概是8.33%。下面我们来计算一下。
先验概率是:
联合概率是:
归一化:
后验概率是:
上述计算过程就是贝叶斯规则,应用该规则的领域有很多,比如说学习文档和文本的分类。所使用的的方法叫做朴素贝叶斯(Naive Bayes)。为什么叫“朴素”呢?
比如说下面要给一篇文本分类,判断是属于A还是B,比如说是属于文艺类还是科技类文章。
image.png朴素贝叶斯的做法就是将文本包含的单词进行统计,然后计算出先验概率。因为模型已经经过大量文本的训练,知道了在某些特定单词出现概率比较大的情况下,对应的文本是什么类别的。所以,可以通过计算得到未知文本属于A和B的概率大小,然后选择大的作为未知文本的类别。
因为朴素贝叶斯模型并没有考虑文本的单词的顺序,它并没有真正地读懂文本的内容,所以称为“朴素”。
网友评论