美文网首页STATISTICS统计学
Lesson 5 - 贝叶斯规则

Lesson 5 - 贝叶斯规则

作者: IntoTheVoid | 来源:发表于2018-09-03 23:25 被阅读9次

    使用癌症案例

    有一种特定的癌症 在人群中的发病率为 1%

    这种癌症的一种化验,有 90% 的几率,在得了这种癌症的情况下呈阳性,这通常被叫做敏感度(Sensitivity)

    但有时候即便没有得癌症,化验也呈阳性,比如 另外有 90% 的几率,没有得癌症的情况下呈阴性,这通常被叫做特异度(Specitivity)

    那么对于以下问题:

    在没有其他症状的情况下 你进行了化验,结果呈阳性
    你认为的这种特定类型癌症的概率是多少?

    要回答这个问题 我们先画个图

    image.png

    假设这些是所有人,其中刚好有 1% 得了癌症,99% 没得癌症

    我们知道有一种化验,如果你得了癌症,可以有 90% 的几率正确诊断出来, 如果我们画出化验呈阳性的区域(红色阴影部分)

    但是 这并不是全部的真实情况,化验还有可能在没有癌症的,情况下呈阳性, 实际上 在我们的例子里,这占所有情况的 10%,因此 我们必须添加更多区域,就是这个大的区域的10%,这里化验结果可能在没有癌症的情况下,呈阳性( 蓝色阴影部分). 很显然 这些圆圈外的所有区域,对应没得癌症并且,化验呈阴性的情况

    问题:
    如果化验结果呈阳性,你认为在癌症先验概率为1%,敏感度和特异度为 90%的情况下,你认为现在新的概率是多少?

     
     
    下面首先了解一些基本术语.

    先验概率(Prior probability): 进行化验之前的概率

    后验概率(posterior probability): 通过化验得到一些证据, 这样我们就得到了所谓的后验概率

    贝叶斯法则(Bayesion rule)可以将化验中得到的一些证据, 纳入你的先验概率中,并得到后验概率

    image.png

    例如, 在癌症的例子中, 癌症的先验概率(Prior probability)为1%, 患癌症并且检测为阳性的概率为90%.

    image.png

    对于后验概率(posterior probability), 我们的问题是由阳性来推出得癌症得概率, 因此要包括两部分, 一部分是得癌症呈现阳性得概率, 另一部分是没有得癌症呈现阳性得概率.

    那么计算可得:

    image.png

    然后对两部分进行归一化(Normalization), 在这个例子中表示测试结果为阳性, 也就是上图中蓝色区域加红色区域组成得椭圆部分

    对于之前的先验概率其实严格讲为两个事件的联合概率(Joint Probability), 最后得到化验结果为阳性时得癌症的后验概率, 就必须用测试为阳性得到癌症的概率0.009除以Normalizer = 0.108

    image.png

    我们刚刚说过 有一种情况

    • 先验的概率 P(C)
    • 带有一定敏感度的化验 P(Pos|C)
    • 特定的特异度 P(Neg|¬C)
    image.png

    例如 当你收到阳性化验结果时 你要做的是:

    • 使用先验的 P(C) 乘以在得癌症情况下化验结果的概率
    • 然后乘以没得癌症情况下的化验结果的概率=
    • 计算后 你得到一个数字, 包括得癌症的假设和没得癌症的假设, 把两者相加 结果通常不是 1, 这就是化验结果 , 在该情况的总概率 这里的情况是阳性
    • 进行归一化或除法混算, 除以总概率

    现在 你计算出了期望的后验概率
    这就是贝叶斯法则的算法

    对应到之前画的示意图中可得下图

    image.png

    练习

    在这个例子中 你是一台机器人, 这个机器人在一条道路上 这条路只有两个地方 红色和绿色 用 R 和 G 表示,现在假设初始状态下 机器人不知道它的位置, 因此 红色或绿色两个地方的先验概率都是 0.5, 它还有传感器 就像眼睛一样 但它的传感器不太可靠, 因此它在红色格子中看到红色的概率是 0.8, 在绿色格子中看到绿色的概率是 0.8, 现在 假设机器人看到了红色, 如果机器人看到了红色, 那么它在红色格子里的后验概率是多少?, 同样地 如果机器人看到了红色 那么它在绿色格子里的概率是多少?现在 你可以应用贝叶斯法则计算出结果

    示意图如下

    image.png

    提示,贝叶斯法则如下所示:

    image.png

    我们可以将贝叶斯法则中的 A 和B 替换掉,显示为:

    image.png

    现在,我们了解先验概率和条件概率后,可以改写为:

    image.png

    不过我们还不知道一件事!我们看见红色的概率是多少? 答案是 0.5。

    全概率法则
    机器人看到红色有以下两种情况。

    • 当机器人处于红色格子并且其传感器正常工作时。
    • 当机器人在绿色格子中,其传感器犯了一个错误。 我只需要把这两个概率加起来就可以得到红色的总概率。
    image.png

    由此得出答案:

    image.png

    The following questions will help you review what you learned in the Bayes' Rule lesson.

    Prior knowledge

    For questions 1-3, assume you already have the following knowledge:

    You’re interested in finding out the probability of a car stopping if it sees a yellow traffic light.

    • Past data tells you that the probability of a car stopping at a traffic light intersection is
      P(S) = 0.40

    • You also know that the past probability of a traffic light being yellow (as opposed to red or green) is
      P(Y) = 0.10

    image.png

    习题 1/5
    When a car is stopped at an intersection, data shows that 12% of the time the light is yellow. So if we know a car is stopped, there's a 12% chance the light is yellow. This is called a conditional probability.

    Given P(S) and P(Y) above, how would you represent this conditional probability in notation?

    Given that a car is stopped, we know that it is 12% likely (0.12 in decimal value) that the light is yellow, which is given by the notation P(Y|S). Which can be read as "Probability of Yellow given a Stopped car."

    P(Y|S) = 0.12

    习题 2/5
    Using what you know from question 1, answer the following: if the traffic light is yellow, what is the chance that the car will stop?

    Using Bayes' rule, we know that
    P(S|Y) = P(Y|S)P(S) / P(Y)
    P(S|Y) = 0.12
    0.4 / 0.1 = 0.48

    And intuitively this value seems about right; a car should stop about half the time when faced with a yellow light.

    0.48

    习题 3/5
    Knowing that a car stopping at an intersection and the presence of a yellow traffic light are related events, what are P(S) and P(Y) known as?

    image.png

    Questions 4 and 5 are different scenarios.

    Prior knowledge for question 4:

    On a four-lane highway, cars are either going fast or not fast. Faster cars should go in the leftmost lanes.

    • At any given time, 20% of cars are in the left-most lane.
    • Overall, 40% of cars on the highway are classified as going fast.
    • Out of all the cars in the leftmost lane, 90% are going fast.

    习题 4/5
    Given the above information, if a car is going fast, what is the probability that it will be in the leftmost lane?

    Using Bayes' rule, we know that 0.9*0.2/0.4 = 0.45.

    Bayes' rule is not only used to incorporate sensor data into an estimate; it’s also often used to incorporate test data into a medical diagnosis.

    Prior knowledge for question 5:

    • 1% of all people have cancer.
    • 90% of people who have cancer test positive when given a cancer-detecting blood test, meaning the test detects cancer 90% of the time.
    • 5% of people will have false positives, meaning that 5% of the time, this test will produce a positive result when people do not have cancer.

    习题 5/5
    Given the above data, what is the probability that a person has cancer if they have a positive cancer-test result? (Note: answers are rounded to the nearest 4th decimal place).

    0.1538

    相关文章

      网友评论

        本文标题:Lesson 5 - 贝叶斯规则

        本文链接:https://www.haomeiwen.com/subject/bupqwftx.html