贝叶斯公式
image.png我们把P(A)称为"先验概率",即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为"后验概率",即在B事件发生之后,我们对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数",这是一个调整因子,使得预估概率更接近真实概率。
推广公式如下
image.png
血液检测问题
假设一项血液化验用于诊断某种疾病,95%的患者反应呈阳性,但是1%的健康人也呈阳性反应—伪阳性,统计资料表明,这种疾病的患者在人口中的比重为0.5%,若某人化验结果呈阳性,则此人确实患此病的概率为多少?
令 D 表示“接受化验的这个人患有该疾病”这一事件,E表示“其化验结果为阳性”这一事件,所求概率为
虽然血液化验对“这种疾病”的检出率很高,但是我们往往忽略了其错误率也很高的事实
真正患有该病的概率 = 患有疾病并且被检测出来的 / (患有疾病并且被检测出来的 + 未患有该疾病但是被误诊的)
垃圾邮件过滤
《黑客与画家》中提到可用贝叶斯定理来进行邮件过滤
其中原理可以简单描述为:已知 垃圾邮件中含有某关键词(如sex)的概率,根据贝叶斯定理,求 一封含有该关键词的邮件是垃圾邮件的概率,如果大于90%则认为是垃圾邮件。
实际上,若只用一个关键词作为参考,其准确率并不是很好,所以一般会用多个关键词的联合概率来计算这个概率。
详情可参考 阮一峰的博客
联合概率的推导见评论
网友评论