美文网首页
概率统计组队学习 之 随机事件与随机变量

概率统计组队学习 之 随机事件与随机变量

作者: 小裙子Cheryl | 来源:发表于2020-06-21 22:50 被阅读0次

    摘要:随机事件、随机变量の学习笔记

    涉及概念:随机事件,概率,古典概型,条件概率,全概率公式,贝叶斯公式,随机变量,伯努利实验,二项分布,数学期望,方差,协方差,相关系数
    预警:笔记很长!(然鹅只是知识海洋中沧海一粟)
       此文包含一堆文字定义和公式 (一遍读不顺就多读几遍😁)

    一、随机事件

     1. 基本概念

       i. 随机现象:一件事情在某条件下的结果不能预先完全确定,只能确定
             是多种可能结果中的一种。
            (例如:抛一枚硬币是一个随机现象 – 因为结果可能是正面,
             也可能是反面)

       ii. 随机试验(E):随机现象的实现和对它观察的全过程。
                  满足条件
                  1. 可以在相同条件下重复进行
                  2. 结果有多种可能性且所有可能结果事先已知
                  3.做一次试验究竟哪个结果出现事先不能确定
       iii. 样本空间(\Omega):随机试验的所有可能结果组成的集合。
       iv. 样本点(\omega):[读作omega]  随机试验的每一个可能的结果。
       v. 随机事件(A, B, C….):样本空间中满足一定条件的子集。
                      随机事件可能出现也可能不出现。
       vi. 必然事件:每次试验中总是发生的事件。
             (比如样本空间(\Omega)为必然事件,因为其包含了所有
              样本点,构成该事件的一个样本点必然会出现)

       vii. 不可能事件:每次试验中总不发生的事件。
              (比如空集(\phi)为不可能事件,因为不包含任何样本点)
       🍩举个栗子
          扔一枚六面的骰子:
          随机现象:扔一枚骰子,可能出现1,2,3,4,5,6中任意一个数字
          随机试验:扔一枚骰子,观察出现的点数
          样本空间:\Omega={1,2,3,4,5,6}
          样本点:出现的每一个数字都是一个样本点
          随机事件:比如出现的数字为偶数就是一个随机事件,
               记为A={2,4,6},A\Omega的一个子集
          必然事件:\Omega={1,2,3,4,5,6}
          不可能事件:\phi (比如结果为大于6的数字)

     2. 概率

       i. 定义:
         随机试验E, 样本空间为\Omega,对于每个事件A赋予一个实数P(A)
         称为事件A的概率。函数P(.)满足条件:
            1. 非负性:每一个事件A0 < P(A) <= 1
            2. 规范性:P(\Omega) = 1
            3. 可列可加性:若事件A_1, A_2,…两两互斥,
                   即i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi
                 则P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...

       ii. 主要性质:
         1. 任一事件A,均有P(\overline{A})=1-P(A)
         2. 两个事件AB,若A \subset B
          则有P(B) >P(A), P(B-A) = P(B) - P(A)
         3. 任意两个事件AB
           有P(A \cup B) = P(A) + P(B) - P(A\cap B)
       🍩举栗:
          投骰子,假设A = {1,2}, B = {1,2,3}
          因为1,2,3,4,5,6出现的概率均为1/6,所以:
          P(A)=1/3
          P(B)=1/2
          P(\overline{A})=1-1/3 = 2/3
          P(B-A)=1/2-1/3=1/6
          P(A∪B)=1/3+1/2-1/3=1/2
           [此处 P(A∩B)=P(A)=1/3]

     3. 古典概型(等可能概型 / classical probability)

       i. 定义:
         随机事件E的样本空间有有限个样本点,每个样本点出现是等可能的,
          每次试验有且仅有一个样本点发生,称为古典概型。
          其中P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}
       🍩两个小栗子:
        1. 假设有 k 个不同颜色的球,每个球以同样的概率 1/l 落到 l 个格子
          (l>=k) 的每个中,且每个格子可容纳任意多个球。
          求事件 AB 的概率。
          A:指定的 k 个格子中各有一个球。
          B:存在 k 个格子,其中各有一个球。
         🍹解题思路:
         基本事件总数:每一个球都可能扔到l个格子中的一个,一共k个球,
                      共l^k种情况
         事件Ak个格子各一个球,相当于k个球排列,情况有k!
             P(A) = \frac{k!} {l^k}
         事件B:在每个事件A基础上,从l格子里选k个格子有 C^k_l 种组合
             P(B) = \frac {C^k_lk!} {l^k} = \frac {l!} {l^k(l-k)!}

        2.生日问题: k个同班同学没有生日相同的概率
        🍹(思路转换:想象每个人是个球,被扔到时间的格子里,一年365天,
         所以l=365,此事件类似栗子1中的事件B
         所以假设k=40
         P(B)=\frac{365!}{365^{40} * (365-40)!}= 0.109
         生日相同的概率 P(\overline{B}) = 1-0.109=0.891
         [ 学好概率就不会在遇到同一天生日的人的时候大惊小怪了 hh ]

             '''Python 代码实现栗子2中的 P(B) 的计算'''
             # 函数递归实现阶乘 
             def factorial(n): 
               if n == 0:
                   return 1
               else:
                   return (n * factorial (n-1)) 
    
             l_fact = factorial(365)
             l_k_fact = factorial(365-40)
             l_k_exp = 365 ** 40
    
             P_B = l_fact / (l_k_fact * l_k_exp)
             print("事件B的概率为:", P_B ) 
    
     4. 条件概率(Conditional Probability)

       i. 定义:
          AB两个事件,且P(B)>0, 在事件B发生的条件下,事件A
          发生的概率为:P(A|B) = \frac{P(AB)}{P(B)}
       🍩栗子:
          N个男性,M个女性,其中男色盲患者n人,女色盲患者m人。
          A表示全体女性集合,B表示全体色盲集合:则
          P(A) = \frac{M}{M+N}
          P(B) = \frac{m+n}{M+N}
          P(AB) = \frac{m}{M+N}
          P(B|A) = \frac{\frac{m}{M+N}}{\frac{M}{M+N}} = \frac{m}{M} (在女性中随机抽一个人为色盲的概率)

     5. 全概率公式(Law of Total Probability)

        由条件概率公式可得: P(AB)=P(B|A)P(A) =P(A|B)P(B)
        设B_1,B_2,...是样本空间 \Omega 的一个划分,A 为任一事件,则
    ​       全概率公式:P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)

     6. 贝叶斯公式(Bayes’ Theorem)

        设B_1,B_2,...是样本空间 \Omega 的一个划分,则对任一事件
         A(P(A)>0) ,有
        P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...
        其中P(B_i)(i=1,2,...) 为先验概率,
          P(B_i|A)(i=1,2,...)为后验概率
       🍩贝叶斯公式示例
       假定用血清甲胎蛋白法诊断肝癌。用 C 表示被检验者有肝癌这一事件,
       用 A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性
       反应的概率为0.95。即 P(A|C) = 0.95 。当前非肝癌的患者被检测呈阴
       性反应的概率为0.9。即 P(\overline {A}|\overline {C}) = 0.90 。若某人群中肝癌患者概率为
       0.0004,即P(C) = 0.0004,现在有一人呈阳性反应,求此人确为肝癌
       患者的概率是多少?
       🍹解题思路:

    画个图也许更清晰.jpg

    P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038

    二、随机变量

     1. 随机变量及其分布

       i. 定义:
          E为随机试验,样本空间为\Omega,对于每一个 \omega \in \Omega,都有一个
          确定的实数X(\omega)与之对应,若对于任意实 x \in R ,
          有 {\omega :X(\omega) < x } \in F ,则称 \Omega 上的单值实函数 X(\omega)
          为一个随机变量。
       ii. 定义理解:
          随机变量取值在实数域上的函数,自变量是随机试验的结果,结果
          出现具有随机性,所以随机变量取值也具有随机性,区别于普通函数

       iii. 分布函数(概率累积函数)定义:
          F(x) = P { (X<=x)} , x \in (- \infty ,+ \infty)
          F(x)x处取值为随机变量X落在区间(- \infty, + x]上的概率

     2. 离散型随机变量(X的全部取值为有限多个或可列无穷多个)

          P { (X =x_k) } =p_k,k=1,2,...
          F (x) = P { (X<=x) } =\sum_{x_k <=x}{ P { (X=x_k) } } = \sum_{x_k <=x}{ P_k}

     3. 常见离散型分布

       i. 伯努利实验 (Bernoulli trail)
         定义:随机试验只有两种可能的结果A\overline A (实现目标和未实现目标)
            P(A) = p,P(\overline A) =1-p=q
       ii. 二项分布 (binomial distribution)
         n次独立的伯努利试验的结果服从二项分布: X ~ B(n, p)
         其中P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
         分布律为:P { (X=k) } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.
         分布函数为: F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.
         其中, [x] 表示下取整,即不超过 x 的最大整数。

     4. 随机变量的数字特征

       i. 数学期望 (Expectation), 代表随机变量取值的平均值
         通常情况下对离散型随机变量X
         分布律为P { X=x_i} = p_i ,i =1,2,...,若\sum_{i} {|x_i|p_i} 收敛,
         E(X) = \sum_{i} {x_ip_i}
       ii. 数学期望的一些性质:
         1. 若c为常数,E(c)=c
         2. E(aX+bY) = aE(X)+bE(Y), ab为任意常数
         3. 若X,Y相互独立不互相影响,则E(XY)=E(X)E(Y)

       iii. 方差(Variance),描述随机变量取值相对于均值的离散程度
         X为随机变量,如果E{[X-E(X)]^2}存在,则记为X的方差:
         Var(X) = E{[X-E(X)]^2} = \sum_{i} (i-E(X))^2P(X=i)
         \sqrt{Var(X)}X的标准差或均方差
       iv. 方差的性质:
         1. 若c为常数,Var(c)=0
         2. Var(aX+b) = a^2Var(X)ab为任意常数
         3. 若X,Y相互独立,
          则Var(X+Y) = Var(X) + Var(Y) [离散程度增加]

     5. 二维随机变量X, Y的关系

       i. 协方差 (Covariance):
        通俗理解:参考 知乎问答 两个变量在变化过程中是同方向还是反方向?
             同向或反向程度如何?
        Cov(X, Y) = E{ [X-E(X)] [Y-E(Y)]}
       ii. 协方差性质:
         1. Cov(X, Y) = Cov(Y, X)
         2. Cov(aX+b,cY+d) =ac Cov( X,Y)
          a,b,c,d 为任意常数
         3.Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y)
         4. Cov(X,Y) =E( X,Y) -E( X)E(Y)
          当 X,Y 相互独立时,有 Cov(X,Y) = 0
         5. |Cov(X,Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)}
         6. Cov(X,X) =Var( X)

       iii. 相关系数(correlation coefficient):
         用来衡量两个变量之间的相关程度,一种剔除了两个变量量纲影响、
         标准化后的特殊协方差 (参考 知乎问答
         当\sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0时,
         相关性系数\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}}
       iv. 相关系数解读:
         1. 没有单位,只是一个代数值
         2. 取值范围[-1,1],小于0表示负相关,大于0表示正相关,
          绝对值越接近1表示相关度越大

    Credit:
    笔记整理自:Datawhale 概率统计组队学习

    相关文章

      网友评论

          本文标题:概率统计组队学习 之 随机事件与随机变量

          本文链接:https://www.haomeiwen.com/subject/rldoxktx.html