机器学习笔记--朴素贝叶斯

作者: 七号萝卜 | 来源:发表于2017-03-27 10:58 被阅读383次

机器学习实战朴素贝叶斯
机器学习数学原理（4）——朴素贝叶斯模型
朴素贝叶斯
朴素贝叶斯法
朴素贝叶斯分类算法
Task4
机器学习 Day 12 | 朴素贝叶斯基础
机器学习笔记--朴素贝叶斯
Scikit-Learn 朴素贝叶斯分类丨数析学院
统计学习方法笔记(第四章个人笔记)

朴素贝叶斯法是以概率的角度来进行分类的。就是求新输入的那个实例量x在哪个分类Y的概率大，如果在Y=c1类里面的概率大，则x属于c1类。换句话说就是在分类是c1的情况（条件）下，这个实例x满足它各个特征的概率最大，即P（X=x|Y=c1）的概率最大。

|方法 |适用问题 | 模型特点 |模型类别|学习策略|学习的损失函数|学习算法|
|:--- | ---------: | :-------: | :---:|:----------:|
|朴素贝叶斯法|多类分类|特征与类别的联合概率分布，条件独立假设|生成模型|极大似然估计，极大后验概率估计|对数似然损失|概率计算公式，EM算法|

先看看贝叶斯公式：

贝叶斯公式

在机器学习的视角中，比如分类问题，如想看看具有某特征的东西属于某一类，设X为具有某特征；Y为属于某类；那么这时的贝叶斯公式表示就是：

分类问题的贝叶斯公式

也就是说贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成了计算“属于某类的条件下具有某特征”的概率。

比较常用的就是用在文本的分类里，用一个例子来介绍的话，就比如给一句话，想要看看这句话是偏积极还是偏消极的，如下面一句话:

我今天真的是蛮高兴的

如何用贝叶斯来判断呢？这时候，我们其实要求的就是P(“积极”|“我今天真的是蛮高兴的”)的概率。

那么如何求P呢？由于一句话太长了，我们通常先将它进行分词操作，分词后用就变成了这样:

用上贝叶斯公式，就是求：

那里面的P("积极")就是其先验概率。

但这样还是不好算，尤其是那前面一串词在一起的联合概率。因此在这里就有个前提假设：“朴素”的认为每个词为条件独立的。这样的话，条件联合概率就可以化为：

这就是朴素贝叶斯的思想。

为什么叫朴素呢？因为这样独立假设后，每个词就相当于是单独的了，相互之间是没有联系的（这里也是词袋模型的特点，将分词后的词一股脑的装进袋里，那些词之间有没有什么联系，我们并不考虑）。因为有乘法交换律嘛。这样“我是中国人”和“中国人是我”的概率就会是一样的，把它们看成了同一个句子，这从逻辑上并不太合理。

虽然朴素贝叶斯像如上的分类并不考虑词间的顺序等因素，用的就是假设条件概率独立。但从效果上来看还是比较好的，比如《黑客与画家》中就举了个例子，朴素贝叶斯在垃圾邮件识别中：