假设已知的训练数据集(最后一行是要预测的):
类别 身价 射门
赢 高 多
输 低 少
赢 高 少
赢 低 多
输 高 少
? 高 少
1、先计算先验概率:
P(赢) = 3/5
P(输) = 2/5
P(身价高|赢) = 2/3
P(射门少|赢) = 1/3
P(身价高|输) = 1/2
P(射门少|输) = 2/2
P(身价高) = 3/5
P(射门少) = 3/5
2、计算基于给定样本的分类概率
P(赢 | 身价高,射门少)
= P(身价高|赢) * P(射门少|赢) * P(赢) / ( P(身价高) * P(射门少) )
= 2/3 * 1/3 * 3/5 / (3/5 * 3/5)
= 10/27
P(输 | 身价高,射门少)
= P(身价高|输) * P(射门少|输) * P(输) / ( P(身价高) * P(射门少) )
= 1/2 * 2/2 * 2/5 / (3/5 * 3/5)
= 15/27
3、判定分类, 取最大概率者
P(输 | 身价高,射门少) > P(赢 | 身价高,射门少)
预测结果为输
总结:
所谓朴素贝叶斯,基于两点:
1、假设所有属性特征是相互独立的
(这里即身价与射门属性)
2、简化计算
替代公式为 P(X | H) = P(X1 | H) * P(X2 | H) * ... P(Xn | H)
网友评论