概念
朴素贝叶斯,在贝叶斯公式的基础之上,假设各个特征之间相互独立。
回顾一下贝叶斯公式,使用类别C和特征F进行描述:
P(C|F) = \frac{P(F|C) \cdot P(C)}{P(F)}
那么各个特征之间相互独立会发生什么事呢?
举个栗子,现在类别具体为:考上研究生Y,特征有:聪明A、努力B、运气好C三种。
那么根据贝叶斯法则:
P(Y|A,B,C) = \frac{P(A,B,C|Y) \cdot P(Y)}{P(A,B,C)}
而独立法则告诉我们,当A和B相互独立的时候,有 P(A,B) = P(A)P(B),所以有:
P(Y|A,B,C) = \frac{P(A|Y) \cdot P(B|Y) \cdot P(C|Y) \cdot P(Y)}{P(A)P(B)P(C)}
可见根据朴素贝叶斯可以最简单的进行一次分类。
PS:下面这个公式在相互独立的情况下一定成立嘛?
P(A,B,C|Y) = P(A|Y) \cdot P(B|Y) \cdot P(C|Y)
略微进行数学运算即可得到答案,假设A、B、C互相独立。
P(A,B,C | D) = \frac{P(A,B,C,D)}{P(D)} = \frac{P(A,D)P(B,D)P(C,D)}{P(D)}
局限性
朴素贝叶斯主要好处在于算法逻辑简单,易于实现,时空开销小。
但是缺点也是显而易见,因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
网友评论