数据的生成遵循一定规则。朴素贝叶斯是生成模型,直接学习的是数据产生的机制。即当X发生,有一定概率产生对应的Y的类别。反过来,当观察到某一类别的Y时,可以推知,不同的输入X有不同的发生概率。
基本方法
朴素贝叶斯首先根据输入数据,学习Y的先验概率,即不同的Y在训练数据中出现的频率。
p(Y=C_k)
然后学习条件概率,对于每一个类别Y,当Y=C_k发生时,X中的每一个维度取对应空间中某一值得概率。
独立性假设
独立性假设的指的是,X中的每一个维度的变量的发生,和其它维度的数据是否发生不相关。在这种假设的基础下,简化了朴素贝叶斯法,在计算Y=C_k,X的某个维度等于给定维度值的概率时只需累乘即可。
学习过程
朴素贝叶斯的学习过程实际上是,根据数据学习P(Y)和P(X|Y),预测是求解P(Y_|X_)
P(Y_|X_) = P(X|Y)·P(Y)/P(X)
其中P(X) = ∑P(X|Y)·P(Y),以上简化了的表述。
在朴素贝叶斯估计中,期望风险最小化就相当于后验概率最大,即当X的每一变量取值等于给定数据时,Y=Ck发生概率最大的Ck类别。
总结
朴素贝叶斯是典型的生成学习方法,根据训练数据,学习Y的先验概率和Y对应的X的后验概率,再依据条件独立性假设,对每一类对应的概率进行计算,x的分类为概率最大的一类。
网友评论