1. 什么是概率
P(x) = 0.5
事件x发生的概率是50%
- 频率派的概率(可以重复的事件)
- 抛一枚硬币,正面向上的概率是 50%
- 抛一千词硬币,正面向上的次数大约是500词
- 贝叶斯派的概率
- 病人患流感的概率是0.5
- 医生对诊断的把握是五五开(不可重复事件的信念)
2. 什么是随机变量
随机变量是可以随机的取不同值的变量
- 抛硬币
- x ∈ {正面,反面}
- 掷骰子
- x ∈{1,2,3,4,5,6}
一个随机变量是对可能状态的描述,他必须伴随一个概率分布来指定每个状态的可能性
用 Ω 变量表示随机变量状态的可能性
3.概率分布
3.1 离散性概率分布
概率质量函数:将随机变量取得的每个状态映射到随机变量取得该状态的概率
直白一点就是接收所有可能随机变量,返回所有随机变量的概率。
如果一个函数P是随机变量x的概率质量函数,那么函数必须满足以下条件
-
P的定义域必须是x所有可能的状态集合
-
对于任意x, 0≤P≤1,不可能发生的事件概率为0,必然发生的事件概率为1
-
归一化条件
∑P(x) = 1
3.2 离散型均匀分布
给定一个离散型随机变量x,有k个可能的状态(x_1, x_2, …, x_k),每个状态的可能性是相同的,即均匀分布(uniform distribution),则其概率分布为
3.3 连续型概率分布
比如一天的温度值就属于连续型概率分布
概率密度函数
如果一个函数是概率密度函数(Probability Density Function, PDF),必须满足以下条件
-
p的定义域必须是x所有可能状态的集合
-
•∀x, p(x)≥0(对于任意x,p(x)>0)
- •不要求p(x)≤1
-
p(x)没有直接给出特定状态的概率,而是:落在面积为δx的无限小区域内的概率为p(x)δx
-
因为要求积分和为1,因此对于单个x的p(x)的值可以大于1
假设一个人的体温是 36-42 的均匀分布
- 一个人体温是 37-38 之间的概率是
- P(<37x<38) = 1/6
- 一个人体温恰好是 37 的概率是
- 相当于问一条线的面积是多少:0
4. 联合概率、边缘概率、条件概率
4.1 联合概率
如果随机变量x, y相互独立,联合概率为:P(x=x_i, y=y_i )=P(x=x_i )P(y=y_i )
比如我同时进行抛硬币和投骰子两个事件
x 表示 骰子的点数 P(x=1=2=3=4=5=6) = 1/6
y = 1 表示硬币正面向上,y = 0 表示反面向上 p(y=0=1) = 1/2
联合概率分布表
x=1 | x=2 | x=3 | x=4 | x=5 | x=6 | |
---|---|---|---|---|---|---|
y=0 | P(x=1,y=0)=1/12 | P(x=2,y=0)=1/12 | P(x=3,y=0)=1/12 | P(x=4,y=0)=1/12 | P(x=5,y=0)=1/12 | P(x=6,y=0)=1/12 |
y=1 | P(x=1,y=1)=1/12 | P(x=2,y=1)=1/12 | P(x=3,y=1)=1/12 | P(x=4,y=1)=1/12 | P(x=5,y=1)=1/12 | P(x=6,y=1)=1/12 |
P(x=1,y=1) = P(x=1)*P(y=1) = 1/6 * 1/2 = 1/12
4.2 边缘概率
某一组概率的加和叫做边缘概率
比如我要求骰子数字为1的概率
P(x=1) = P(x=1,y=1) + P(x=1,y=0) = 1/6
练习
双眼皮在人群中占比为 1/3 卷舌在人群中 占 1/4 ,且这两个性状相互独立,现在在人群中随机抽一人,用X表示眼皮性状,Y表示卷舌形状,求X,Y 的联合分布 和X 的边缘分布
X = 双眼皮 | X=单眼皮 | |
---|---|---|
Y = 卷舌 | 1/12 | 2/12 |
Y = 不卷舌 | 3/12 | 6/12 |
4.3 条件概率
在
已经发生的前提条件下
发生的概率为
已知一个人是双眼皮,他是卷舌的概率是
5. 独立性与条件独立性
5.1 独立性
开始我们举得例子里说投骰子和抛硬币是相互独立的,但是我们如何用数学语言证明两件事情是相互独立的?
如果两件事情X,Y 是相互独立的
那么必然满足
-
条件概率与条件无关
Y 成立时X 成立的概率与 Y 不成立时X 的概率相等 -
添加去除条件无影响
-
联合概率等于边缘概率乘积
以上三个条件满足一个就可以说X 跟Y相互独立
容易混淆的地方
-
随机变量X,Y相互独立:没有关系,不能相互提供线索
-
独立不是均匀
-
独立的例子
-
均匀的例子
-
-
独立不是互斥
-
互斥一定不独立(能够相互提供线索)
案例
想在有一个测谎机,我如何验证测谎机是否有效?
我可以预先说谎让机器测量,然后检测说谎跟机器的检测结果是否独立,如果独立说明测谎机无效
X = 1 表示说谎 X = 0 表示没说谎
Y = 1 表示机器认为我说谎 Y = 0 表示机器认为我没说谎
如果
P(X=1) = P(X=1|PY=1)
那说明测X 跟Y是相互独立的事件
5.2 条件独立性
随机变量X,Y在Z取特定值的条件下独立:
P(X,Y|Z)=P(X|Z)P(Y|Z)
注意区分:
P(X,Y|Z)=P(X)P(Y|Z)
P(X,Y|Z)=P(X|Z)P(Y)
并不是条件独立
6. 期望
6.1 定义
抛一枚均匀的硬币,若正面向上,你给我100元;否则我给你50元,你是否愿意接受一次挑战?一百次呢?
我们可以用期望来计算收益的平均值
期望是指是试验中每次可能结果的概率乘以其结果的总和
用X 表示收益
那么期望
平局每次会亏25元
对于离散性分布,公式为
对于连续性分布,公式为
比如这里一个人的体温是35-42 之间 p(x)dx 是指某个温度的概率 f(x) 是温度的具体值
案例
投一枚骰子,所得点数的期望值是
已知随机变量X的概率分布:
P(X=1)=1/2, P(X=2)=1/3, P(X=5)=1/6
求E[(X-3)^2]
$$
P(Y=4)=P(X=1)+P(X=5)=1/2+1/6=2/3 \
P(Y=1)=P(X=2)=1/3 \
E[(X-3)^2] = 2/3 * 4 + 1/3*1 = 3
$$
6.2期望的数学性质
可以直接记住结论
- 投骰子的点数期望是3.5 如果 每个骰子的值都加一,那么骰子点数的期望为 4.5,公式表达为
- 如果每个骰子的值都乘以2 ,那么骰子的点数期望为 7,公式表达为
- X 事件为投骰子, y 事件为抛硬币,正面计1 反面计2 求 骰子点数加硬币点数的期望,期望为 4,新的事件有12种可能。
- 公式表达为
- E(X,y) = E(x)*E(y) 只有当X,Y 相互独立时成立(记住结论)
7. 方差
衡量随机变量的离散情况
方差也是一种期望,是随机变量偏离期望程度的期望。
E[x]=μ
V[x]=E[(x-μ)^2]
与期望值一样,方差也是固定值。
方差的另一种计算公式
即 x*2 的期望减去x 期望的平方
证明如下:
9.协方差
协方差用来衡量两个变量的线性相关程度。如果两个变量协方差为0 ,说明他们相互独立
计算公式为
比如同时抛硬币和掷骰子构成一个新的事件。为了方便计算,假设骰子只有1,2,3 三个点
抛硬币事件
投骰子
两个事件的协方差
(x-μ)与(y-ν)符号相同:协方差为正
(x-μ)与(y-ν)符号相反:协方差为负
协方差为正:一方大于期望值,另一方也大于期望值的概率高
10. 伯努利分布
伯努利分布(Bernoulli distribution)是单个二值随机变量的分布,由参数p∈[0, 1]控制, p即是随机变量等于1的概率。
问题:
求伯努利分布的期望和方差
11.二项分布
二项分布(Binomial distribution)表示“硬币正面向上的概率为p时,抛硬币n次后正面向上的次数”。二项分布是伯努利分布的叠加
记作Bn(n, p)
比如我现在抛七次硬币,单独的一次抛硬币向上的概率为0.6
0词向上的次数的概率为
第一次向上,其余向下的概率为
第二次向上,其余向下概率为
...
1 次向上的概率为
2次向上的概率?
第一次,第二次向上,其余向下的概率
第一次,第三次向上,。。
...
第一次向上,其余次数种有一次向上的概率
第一次向上,其余次数有一种向上出现次数是6次
第一次向下,第二次向上,后面次数出现一次向上对应 5次
一共次数为
3次向上概率?
还是刚才那样,只需要关注可能的次数即可
( ) ( ) ( ) ( ) ( ) ( ) ( )
现在要把 3个1 ,4个0 分配到七个括号里,一共会有多少种情况?
首先我把第一个1 分配到一个括号里
( 1 ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( 1 ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( 1 ) ( ) ( ) ( ) ( )
...
一共7种可能
然后再把剩下的一个1 分配到剩下的六个括号种,一共有6种可能,但是此时会产生重复情况
比如我把第一个1 放到了 1号,把第二个1 放到了2号
跟我把第一个1 放到了2号,第二个1 放到了1 号,这两种起始是一种情况
这六七四十二种情况其实事把 两个 相同的1 作为不同的数字又给排列组合扩展过的,把 1,1 的排列组合衍生为1
1_1 1_2 , 1_2, 1_1 两种情况 扩大了 2 * 1 倍
然后我再把第三个一号放入剩下的括号里 ,一共 5种可能,但是还会有重复的,比如针对前三次都是一这种情况,可以是
第一次放第一个括号,第二次放第二个括号,第三次放第三个括号 (1_1,1_2,1_3)
也可以是第一次放第一个括号,第二次放第三个括号,第三次放第而个括号 (1_1,1_3,1_2)
(1_2,1_1,1_3)
(1_2,1_3,1_1)
一共有 3*2*1 种可能
扩大了6倍
因此出现3次向上的概率为
同样扩展到 抛n 次硬币 k次朝上的概率
最后二项分布概率函数总结为
二项分布是n个相同的伯努利分布叠加
期望计算公式为
以为每个伯努利分布都是独立的,相互独立的事件方差可以线性相加
方差计算公式
12.正态分布
直接看图吧,这个没啥好解释的
在这里插入图片描述标准正态公式:期望为 0 方差为1
网友评论