朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大的输出。
朴素贝叶斯法的学习与分类
设输入特征向量,是X和Y的联合概率分布。训练数据集(由P(X,Y)独立同分布产生。)
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。(具体地,学习以下先验概率分布和条件概率分布)。
先验概率分布:
条件概率分布:
条件概率分布有指数级数量的参数,其估计实际上是不可行的。(假设可取值有个,,的取值有个,那么参数总共有,因为不独立)。
朴素贝叶斯法对条件概率分布做了条件独立性的假设(为什么要做这个假设呢,做完之后也没有改变参数的个数)
条件独立性假设是:
条件独立假设等于是说:用于分类的特征在类确定的条件下的都是条件独立的。
朴素贝叶斯学习到生成数据的机制,所以属于生成模型。
朴素贝叶斯法进行分类时,对给定的输入,通过学习到的模型计算后验概率分布,将后验概率最大的类作为的类输出。
接着分母用全概率公式,分子再用次条件概率公式。就得到用贝叶斯公式计算厚颜概率:
把条件独立的假设写进去就是:
朴素贝叶斯分类基本公式.png
朴素贝叶斯分类器可表示为:
朴素贝叶斯分类器.png
后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。
期望风险
损失函数值越小,模型就越好。由于模型的输入,输出是随机变量,遵循联合分布,所以损失函数的期望是
这里推到和极大似然估计没看懂,等看懂了在接着写。
网友评论