基于概率论的分类方法: 朴素贝叶斯

作者: 芮芮cat | 来源:发表于2017-11-26 23:16 被阅读0次

【机器学习实战】第4章朴素贝叶斯（NaiveBayes）
机器学习 Day 12 | 朴素贝叶斯基础
《机器学习实战》读书笔记4
机器学习实战（笔记）：第 4 章基于概率论的分类方法：朴素贝叶
文科小白也能看懂的机器学习基础（二）
《机器学习实战》笔记（3）第四章
朴素贝叶斯法(NaiveBayes)
《机器学习实战》笔记（四）：Ch4 - 基于概率论的分类方法:朴
机器学习之贝叶斯分类(python实现)
关于朴素贝叶斯的一些理解及python的简单实现

计算特征值取某个值的概率时涉及了一些概率知识，那里我们先统计特征在数据集中取某个特定值次数，然后除以数据集的实例总数，就得到了特征取该值的概率。
我们现在用p1(x,y) 表示数据点（x,y）属于类别1的概率，用p2(x,y)表示数据点(x,y)属于类别2的概率，
那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别：
□ 如果p1(x,y), > p2 (x,y), 那么类别为1。
□如果 p2 (x,y), > p1(x,y), 那么类别为2。
也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策

如果特征之间相互独立，所谓独立指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系, 这个假设正是朴素贝叶斯分类器中朴素一词的含义。当然，我们知道这种假设并不正确。
朴素贝叶斯分类器中的另一个假设是，每个特征同等重要®。其实这个假设也有问题。如果要判断留言板的留言是否得当，那么可能不需要看完所有的1000个单词，而只需要看10~20个特征就足以做出判断了。尽管上述假设存在一些小的瑕疵，但朴素贝叶斯的实际效果却很好。

训练算法：从词向量计算概率
计算每个类别中的文档数目
对每篇训练文档：
对每个类别：
如果词条出现文档中―增加该词条的计数值
增加所有词条的计数值
对每个类别：
对每个词条：
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率

我们将每个词的出现与否作为一个特征，这可以被描述为词集模型。如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法被称为词袋模型