概率统计组队学习之随机事件与随机变量

作者: 小裙子Cheryl | 来源:发表于2020-06-21 22:50 被阅读0次

概率统计组队学习之随机事件与随机变量
概率论与数理统计基础
第一章概率统计基本知识
概率论概念列举
概率和数理统计
为什么随机变量可以用来确定未来的情况？
复习
概率论与数理统计笔记第二章随机变量及其概率分布
一起来学统计学——连续型随机变量的概率
概率论

摘要：随机事件、随机变量の学习笔记

涉及概念：随机事件，概率，古典概型，条件概率，全概率公式，贝叶斯公式，随机变量，伯努利实验，二项分布，数学期望，方差，协方差，相关系数
预警：笔记很长！（然鹅只是知识海洋中沧海一粟）
此文包含一堆文字定义和公式（一遍读不顺就多读几遍😁）

一、随机事件

1. 基本概念

i. 随机现象：一件事情在某条件下的结果不能预先完全确定，只能确定
是多种可能结果中的一种。
（例如：抛一枚硬币是一个随机现象 – 因为结果可能是正面，
也可能是反面）
ii. 随机试验（ $E$ ）：随机现象的实现和对它观察的全过程。
满足条件：
1. 可以在相同条件下重复进行
2. 结果有多种可能性且所有可能结果事先已知
3.做一次试验究竟哪个结果出现事先不能确定
iii. 样本空间（ $\Omega$ ）：随机试验的所有可能结果组成的集合。
iv. 样本点（ $\omega$ ）：[读作omega] 随机试验的每一个可能的结果。
v. 随机事件（ $A, B, C$ ….）：样本空间中满足一定条件的子集。
随机事件可能出现也可能不出现。
vi. 必然事件：每次试验中总是发生的事件。
（比如样本空间（ $\Omega$ ）为必然事件，因为其包含了所有
样本点，构成该事件的一个样本点必然会出现）
vii. 不可能事件：每次试验中总不发生的事件。
（比如空集（ $\phi$ ）为不可能事件，因为不包含任何样本点）
🍩举个栗子：
扔一枚六面的骰子：
随机现象：扔一枚骰子，可能出现 $1,2,3,4,5,6$ 中任意一个数字
随机试验：扔一枚骰子，观察出现的点数
样本空间： $\Omega$ ={ $1,2,3,4,5,6$ }
样本点：出现的每一个数字都是一个样本点
随机事件：比如出现的数字为偶数就是一个随机事件，
记为 $A$ ={ $2,4,6$ }， $A$ 为 $\Omega$ 的一个子集
必然事件： $\Omega$ ={ $1,2,3,4,5,6$ }
不可能事件： $\phi$ （比如结果为大于6的数字）

2. 概率

i. 定义：
随机试验 $E$ , 样本空间为 $\Omega$ ，对于每个事件 $A$ 赋予一个实数 $P(A)$ ，
称为事件 $A$ 的概率。函数 $P(.)$ 满足条件：
1. 非负性：每一个事件 $A$ ， $0 < P(A) <= 1$
2. 规范性： $P(\Omega) = 1$
3. 可列可加性：若事件 $A_1, A_2,…$ 两两互斥，
即 $i，j=1,2,...，i \neq j ,A_i \cap A_j = \phi$
则 $P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...$

ii. 主要性质：
1. 任一事件 $A$ ，均有 $P(\overline{A})=1-P(A)$
2. 两个事件 $A$ 和 $B$ ，若 $A \subset B$ ，
则有 $P(B) >P(A)， P(B-A) = P(B) - P(A)$
3. 任意两个事件 $A$ 和 $B$ ，
有 $P(A \cup B) = P(A) + P(B) - P(A\cap B)$
🍩举栗：
投骰子，假设 $A$ = { $1,2$ }, $B$ = { $1,2,3$ }
因为 $1,2,3,4,5,6$ 出现的概率均为 $1/6$ ，所以：
$P(A)=1/3$
$P(B)=1/2$
$P(\overline{A})=1-1/3 = 2/3$
$P(B-A)=1/2-1/3=1/6$
$P(A∪B)=1/3+1/2-1/3=1/2$
[此处 $P(A∩B)=P(A)=1/3$ ]

3. 古典概型（等可能概型 / classical probability）

i. 定义：
随机事件 $E$ 的样本空间有有限个样本点，每个样本点出现是等可能的，
每次试验有且仅有一个样本点发生，称为古典概型。
其中 $P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}$
🍩两个小栗子：
1. 假设有 $k$ 个不同颜色的球，每个球以同样的概率 $1/l$ 落到 $l$ 个格子
$(l>=k)$ 的每个中，且每个格子可容纳任意多个球。
求事件 $A$ 和 $B$ 的概率。
$A:$ 指定的 $k$ 个格子中各有一个球。
$B:$ 存在 $k$ 个格子，其中各有一个球。
🍹解题思路：
基本事件总数：每一个球都可能扔到 $l$ 个格子中的一个，一共 $k$ 个球，
共 $l^k$ 种情况
事件 $A$ ： $k$ 个格子各一个球，相当于 $k$ 个球排列,情况有 $k!$ 种
$P(A) = \frac{k!} {l^k}$
事件 $B$ ：在每个事件 $A$ 基础上，从 $l$ 格子里选 $k$ 个格子有 $C^k_l$ 种组合
$P(B) = \frac {C^k_lk！} {l^k} = \frac {l！} {l^k（l-k）!}$

2.生日问题: k个同班同学没有生日相同的概率
🍹（思路转换：想象每个人是个球，被扔到时间的格子里，一年365天，
所以 $l$ =365，此事件类似栗子1中的事件 $B$ ）
所以假设 $k=40$ ，
$P(B)=\frac{365!}{365^{40} * (365-40)!}= 0.109$
生日相同的概率 $P(\overline{B})$ = $1-0.109=0.891$
[ 学好概率就不会在遇到同一天生日的人的时候大惊小怪了 hh ]

         '''Python 代码实现栗子2中的 P(B) 的计算'''
         # 函数递归实现阶乘 
         def factorial(n): 
           if n == 0:
               return 1
           else:
               return (n * factorial (n-1)) 

         l_fact = factorial(365)
         l_k_fact = factorial(365-40)
         l_k_exp = 365 ** 40

         P_B = l_fact / (l_k_fact * l_k_exp)
         print("事件B的概率为：", P_B )

4. 条件概率（Conditional Probability）

i. 定义：
$A$ 和 $B$ 两个事件,且 $P(B)>0$ , 在事件 $B$ 发生的条件下，事件 $A$
发生的概率为： $P(A|B) = \frac{P(AB)}{P(B)}$
🍩栗子：
$N$ 个男性， $M$ 个女性，其中男色盲患者 $n$ 人，女色盲患者 $m$ 人。
$A$ 表示全体女性集合， $B$ 表示全体色盲集合：则
$P(A) = \frac{M}{M+N}$
$P(B) = \frac{m+n}{M+N}$
$P(AB) = \frac{m}{M+N}$
$P(B|A) = \frac{\frac{m}{M+N}}{\frac{M}{M+N}} = \frac{m}{M}$ (在女性中随机抽一个人为色盲的概率)

5. 全概率公式（Law of Total Probability）

由条件概率公式可得: $P(AB)=P(B|A)P(A) =P(A|B)P(B)$
设 $B_1,B_2,...$ 是样本空间 $\Omega$ 的一个划分， $A$ 为任一事件，则
全概率公式： $P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)$

6. 贝叶斯公式（Bayes’ Theorem）

设 $B_1,B_2,...$ 是样本空间 $\Omega$ 的一个划分，则对任一事件
$A(P(A)>0)$ ,有
$P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...$
其中 $P(B_i)(i=1,2,...)$ 为先验概率，
$P(B_i|A)（i=1,2,...）$ 为后验概率
🍩贝叶斯公式示例
假定用血清甲胎蛋白法诊断肝癌。用 $C$ 表示被检验者有肝癌这一事件，
用 $A$ 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性
反应的概率为0.95。即 $P(A|C) = 0.95$ 。当前非肝癌的患者被检测呈阴
性反应的概率为0.9。即 $P(\overline {A}|\overline {C}) = 0.90$ 。若某人群中肝癌患者概率为
0.0004，即 $P(C) = 0.0004$ ，现在有一人呈阳性反应，求此人确为肝癌
患者的概率是多少？
🍹解题思路：

画个图也许更清晰.jpg

$P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038$

二、随机变量

1. 随机变量及其分布

i. 定义：
$E$ 为随机试验，样本空间为 $\Omega$ ，对于每一个 $\omega \in \Omega$ ，都有一个
确定的实数 $X(\omega)$ 与之对应，若对于任意实 $x \in R$ ,
有 ${\omega ：X(\omega) < x } \in F$ ，则称 $\Omega$ 上的单值实函数 $X(\omega)$
为一个随机变量。
ii. 定义理解：
随机变量取值在实数域上的函数，自变量是随机试验的结果，结果
出现具有随机性，所以随机变量取值也具有随机性，区别于普通函数

iii. 分布函数（概率累积函数）定义：
$F(x) = P { (X<=x)} , x \in (- \infty ,+ \infty)$
$F(x)$ 在 $x$ 处取值为随机变量 $X$ 落在区间 $(- \infty, + x]$ 上的概率

2. 离散型随机变量（ $X$ 的全部取值为有限多个或可列无穷多个）

$P { (X =x_k) } =p_k,k=1,2,...$
$F (x) = P { (X<=x) } =\sum_{x_k <=x}{ P { (X=x_k) } } = \sum_{x_k <=x}{ P_k}$

3. 常见离散型分布

i. 伯努利实验 (Bernoulli trail)
定义：随机试验只有两种可能的结果 $A$ 和 $\overline A$ （实现目标和未实现目标）
$P(A) = p，P(\overline A) =1-p=q$
ii. 二项分布 (binomial distribution)
$n$ 次独立的伯努利试验的结果服从二项分布: $X$ ~ $B(n, p)$
其中 $P(A_k） =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.$
分布律为： $P { (X=k) } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.$
分布函数为： $F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n.$
其中， $[x]$ 表示下取整，即不超过 $x$ 的最大整数。

4. 随机变量的数字特征

i. 数学期望 (Expectation), 代表随机变量取值的平均值
通常情况下对离散型随机变量 $X$ ，
分布律为 $P { X=x_i} = p_i ,i =1，2，...$ ，若 $\sum_{i} {|x_i|p_i}$ 收敛，
$E(X) = \sum_{i} {x_ip_i}$
ii. 数学期望的一些性质：
1. 若 $c$ 为常数， $E(c)=c$
2. $E(aX+bY) = aE(X)+bE(Y)$ , $a$ 、 $b$ 为任意常数
3. 若 $X$ , $Y$ 相互独立不互相影响，则 $E(XY)=E(X)E(Y)$

iii. 方差(Variance)，描述随机变量取值相对于均值的离散程度
$X$ 为随机变量，如果 $E{[X-E(X)]^2}$ 存在，则记为 $X$ 的方差：
$Var(X) = E{[X-E(X)]^2} = \sum_{i} (i-E(X))^2P(X=i)$
$\sqrt{Var(X)}$ 为 $X$ 的标准差或均方差
iv. 方差的性质：
1. 若 $c$ 为常数， $Var(c)=0$
2. $Var(aX+b) = a^2Var(X)$ ， $a$ 、 $b$ 为任意常数
3. 若 $X$ , $Y$ 相互独立，
则 $Var(X+Y) = Var(X) + Var(Y)$ [离散程度增加]

5. 二维随机变量 $X$ , $Y$ 的关系

i. 协方差 (Covariance)：
通俗理解：参考知乎问答两个变量在变化过程中是同方向还是反方向？
同向或反向程度如何？
$Cov(X, Y) = E{ [X-E(X)] [Y-E(Y)]}$
ii. 协方差性质：
1. $Cov(X, Y) = Cov(Y, X)$
2. $Cov(aX+b，cY+d) =ac Cov( X，Y)$
$a,b,c,d$ 为任意常数
3. $Cov(X_1+X_2，Y) =Cov( X_1，Y) +Cov( X_2，Y)$
4. $Cov(X，Y) =E( X，Y) -E( X)E(Y)$
当 $X,Y$ 相互独立时，有 $Cov(X，Y) = 0$
5. $|Cov(X，Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)}$
6. $Cov(X，X) =Var( X)$

iii. 相关系数(correlation coefficient)：
用来衡量两个变量之间的相关程度，一种剔除了两个变量量纲影响、
标准化后的特殊协方差（参考知乎问答）
当 $\sqrt {Var(X)} >0 ，\sqrt {Var(Y)} >0$ 时，
相关性系数 $\rho（X,Y） = \frac{Cov(X，Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}}$
iv. 相关系数解读：
1. 没有单位，只是一个代数值
2. 取值范围 $[-1,1]$ ,小于 $0$ 表示负相关，大于 $0$ 表示正相关，
绝对值越接近 $1$ 表示相关度越大

Credit:
笔记整理自：Datawhale 概率统计组队学习

概率统计组队学习之随机事件与随机变量
摘要：随机事件、随机变量の学习笔记涉及概念：随机事件，概率，古典概型，条件概率，全概率公式，贝叶斯公式，随机变量，...
概率论与数理统计基础
随机变量概述随机变量与事件随机变量的本质是一种函数（映射关系），在古典概率模型中，“事件和事件的概率”是核心概...
第一章概率统计基本知识
1.随机事件与概率 2.随机变量及其分布 3.随机变量的数字特征 4.极限定理 5.数理统计的基本概念
概率论概念列举
一、随机变量及其分布 1、随机变量、概率 2、离散型随机变量，分布率， 3、概率：（1）逆事件（2）概率的加法...
概率和数理统计
1. 事件的关系与运算 2. 概率的基本公式 3. 事件的独立性 4. 随机变量及其概率分布随机变量及概率分布：...
为什么随机变量可以用来确定未来的情况？
随机变量是概率统计中的术语！随机变量并不“随机”！只有所有取值的概率都一样，才能算是随机！随机变量可以取某些值...
复习
1.随机事件和概率 2.随机变量及其分布 3.多维随机变量及其分布 4.大数定律和中心极限定理 5.统计量及其分布...
概率论与数理统计笔记第二章随机变量及其概率分布
# 概率论与数理统计笔记第二章随机变量及其概率分布概率论与数理统计笔记（计算机专业）作者： [CATPUB]...
一起来学统计学——连续型随机变量的概率
上一篇总结了离散型随机变量的概率——概率函数和分布列。如何理解连续型随机变量的概率连续型随机变量与离散型随机变...
概率论
注：采转归档，自己学习查询使用计数概率公理条件概率随机变量离散分布连续分布联合分布随机变量的函数期望方差与标准差...