概率密度函数
设X是具有分布函数F的连续随机变量,且F的一阶导数处处存在,则其导函数:
d_c.png
称为X的概率密度函数。
注意事项:
P=0 与不可能事件是两回事
P=1 必然事件
常用的连续随机变量的分布【1】:
均匀分布
-
概率密度函数:
d_f.png -
累积密度函数:
c_f.png -
期望值:E(X) = (a+b)/2
-
方差:Var(X) = (b-a)2/12
指数分布
指数分布可以用来表示独立随机事件发生的事件间隔,比如旅客进入机场的时间间隔,打进客服中心电话的事件间隔、中文维基百科新条目出现的时间间隔等等。
记号:X ~ Exp(λ)
-
概率密度函数:
d_f.png -
累计分布函数:
c_f.png -
期望值:E(X) = 1/λ
-
方差:D(X) = 1/λ2
-
无记忆性
指数函数的一个重要特征是又称遗失记忆性(Memoryless Property)。这表示如果一个随机变量呈指数分布,他的条件概率遵循:
P(T>s + t | T >t) = P(T > s) for all s, t ≥ 0 -
与泊松过程的关系
e_1.png
泊松过程是一种重要的随机过程。泊松过程中,第k
次随机事件与第k+1
次随机事件出现的时间间隔服从指数分布。而根据泊松过程的定义,长度为t
的时间段内没有随机事件出现的概率等于:
长度为t的时间段内随机事件发生一次的概率等于:
e_2.png
所以第k
次随机事件之后长度为t
的事件段内,第k+n
次(n=1,2,3...)随机事件出现的概率等于 1 - e-tλ。这是指数分布,还表明了泊松过程的无记忆性。 -
最大似然估计:
= 1/
伽玛分布
Gamma分布即为多个独立且相同分布(iid)的指数分布变量的和的分布。
- 泊松分布
泊松过程是一个计数过程,通常用于模拟一个(非连续)事件在连续事件内发生的次数。
{N(t):t≥0}
为一个泊松过程,即事件t
内事件发生的次数,则其满足三个性质:
- N(0) = 0 (t=0时什么也没有发生)
- N(t+s) -N(t) (增量)之间相互独立
- Pr(N(t + s) - N(s) = n) = Pr(N(t)=n) = e-tλ(λt)n/n!
即 N(t) ~ Poi(λt)
- 泊松->指数
假设Ti为第i-1
次事件与第i
次事件的间隔时间。
Pr(T1 > t) = Pr(N(t)=0) = e-tλ
所以 T1 ~ Exp(λ)
Pr(Ti > t | Ti-1 = s) = Pr(N(t+s) - N(s)=0) = e-tλ
所以 Ti ~ Exp(λ)
即泊松过程的事件间隔时间为指数分布。 - 指数->Gamma
Sn = ∑Ti,即从头开始到第n次事件的发生的时间,该随机变量即为Gamma分布。
Sn~Gammar(n, λ) - 概率密度函数
g_f.jpg
α也就是前面所述的n
,称为形狀参数。
当α=1
时,就变成了指数分布。
β称为尺度参数
λ = 1/β - 均值
E(X) = α/λ - 方差
Var(X) = α/λ2
高斯分布
又叫正态分布。
-
概率密度函数
gaussian.png -
均值
E(X) = μ -
标准差
Std(X) = σ -
方差
Var(X) = σ2 -
特例
其特例就是所谓的标准正态分布: -
特性
- φ(-x) = 1 - φ(x)
- P{μ-σ<X<u+σ} = P{-1<X-u/σ<1}=Φ(1)-Φ(-1)
- P{μ-3σ<X<μ+3σ} = 2Φ(3)-1: 三σ法则
- 与二项分布的关系
在离散分布中如果试验次数n
值非常大,而且单次试验的概率p
值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:n * p * (1-p) ≥ 9。
从二项分布中获得μ和σ值的方法是
期望值 μ = n * p
标准差 σ = sqr(n * p * (1-p))
对数正态分布
对数正态分布是对数为正态分布的任意随机变量的概率分布, 即一个随机变量的对数服从正态分布。
参考资料:
对数正态分布
程序员眼中的统计学
怎么来理解伽玛(gamma)分布?
Γ函数
伽玛分布
连续分布
运用对数正态分布的示例场合
网友评论