美文网首页数理统计
二项分布和泊松分布

二项分布和泊松分布

作者: 壮志_凌云 | 来源:发表于2020-07-14 15:58 被阅读0次

    一、超几何分布、二项分布和泊松分布的定义

    设在 N 个产品中有 M 个不合格品,从这 N 个产品中不放回的等可能的随机抽取 n 个产品,随机变量 X 表示这 n 个产品中包含的不合格品的数量,则 X 的分布就符合超几何分布 H(n, M, N),且分布列为:

     P_X(k) = h(k, n, M, N) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }, 0 \leq k \leq M

    设随机事件 A 在一次试验中发生的概率为 p,随机变量 Y 表示在 n 次重复的独立试验中事件 A 发生的次数,则 Y 的分布就符合二项分布 B(n, p),且分布列为:

     P_Y(k) = b(k, n, p) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}, 0 \leq k \leq n

    设随机事件 B 在一段时间内发生的平均次数为 \lambda,随机变量 Z 表示在一段时间内事件 B 发生的总次数,则 Z 的分布就符合泊松分布 P( \lambda ),且分布列为:

     P_Z(k) = p(k, \lambda) =  e^{- \lambda} \frac{ \lambda^k }{ k! }, k \geq 0

    二、超几何分布、二项分布和泊松分布的关系

    对于超几何分布随机变量 X,当固定 n 和 k, N \to \infty, \frac{M}{N} \to p 时,X 的分布极限是二项分布,即:

     \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

    证明:

     P_X(k) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }

     = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (M-i) * \Pi_{j=0}^{n-k-1} (N-M-j)  }{ \Pi_{l=0}^{n-1} (N - l) }

     = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (p - \frac{i}{N} ) * \Pi_{j=0}^{n-k-1} ( 1 - p - \frac{j}{N} )  }{ \Pi_{l=0}^{n-1} (1 - \frac{1}{N} ) }

     \implies \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

    这就证明了超几何分布的极限是二项分布,同时也说明了,当不合格率固定并且产品数量足够大时,不放回抽样的概率分布非常接近放回抽样的概率分布。

    对于二项分布随机变量 Y,当 n \to \infty, np \to \lambda时,Y 的分布极限是泊松分布,即:

     \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

    证明:

    设随机变量 Y 表示在一段时间内随机事件 B 发生的次数。现在将这段时间分割为 n 个足够多的时间段,并假设在每个时间段内,事件 B 发生的概率为 p,且最多只能发生 1 次,并假设 np \to \lambda,那么在这种假设下,变量 Y 符合二项分布,有:

     P_Y(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

     = \frac{ \lambda^k }{ k! } \Pi_{i=0}^{k-1} (1 - \frac{1}{n}) (1 - \frac{\lambda}{n})^{n-k}p 替换为 \frac{\lambda}{n}

     \implies \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

    这就证明了二项分布的极限是泊松分布,当 n 特别大,p特别小时,可以使用 p(k, np) 来近似计算 b(k, n, p)

    三、二项分布可加性和极值

    设随机变量 X_1 ~ B(n, p), X_2 ~ B(m, p) 且相互独立,那么随机变量 X_1 + X_2 ~ B(n + m, p)

    证明:

    从二项分布定义的角度考虑,对于随机事件 AX_1 表示在 n 次独立试验中事件 A 发生的次数,X_2 表示在 m 次独立试验中事件 A 发生的次数,所以随机变量 X_1 + X_2 就表示在 n + m 次试验中事件 A 发生的次数。

    下面通过计算对命题进行证明:

     P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

     = \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) p^i (1 - p)^{n-i} \left(\begin{array}{c}m \\ k-i\end{array}\right) p^{k-i} (1-p)^{m - k + i}

     =  p^k (1-p)^{n + m-k} \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) \left(\begin{array}{c}m \\ k-i\end{array}\right)

     = \left(\begin{array}{c}n+m \\ k \end{array}\right) p^k (1-p)^{n + m-k}

    这就证明了 X_1 + X_2 ~ B(n + m, p),结论可以推广到 n 个独立的二项分布随机变量的情况:若相互独立的随机变量 X_i ~ B(n_i, p), i = 1, 2, \dots, n,则 \sum_{i=1}^n X_i ~ B(\sum_{i=1}^n n_i, p)

    设随机变量 X ~ B(n, p),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, n] 区间内单调非增,其中 k^* = \lfloor (n+1) p \rfloor

    证明:

    设 k = 1, 2, \dots, n,则分布列的比值为:

     f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ (n-k+1) p }{ k(1-p) }

    可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

     k = (n+1)p \implies k^* = \lfloor (n+1) p \rfloor

    这就证明了二项分布的分布列在 \lfloor (n+1) p \rfloor 处取的最大值,特别的:

    当 p \le \frac{1}{n+1} 时,即事件发生的概率特别小时,P_X(k) 在 [0, n] 上都是单调非增的;

    当 p \ge \frac{n}{n+1} 时,即事件发生的概率特别大时,P_X(k) 在 [0, n] 上都是单调非减的;

    四、二项分布的分布函数

    设随机变量 X ~ B(n, p),则分布函数 F_X(p) 是 p 的单调递减函数,且有:

     F_X(p) = f(p) = \frac{ n! }{ k! (n-k-1)! } \int_0^{1-p} t^{n-k-1}(1-t)^k dt, 0 \le k < n

    证明:

     F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) p^i (1-p)^{n-i}

     \implies \frac{d}{dp} F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) (i p^{i - 1} (1-p)^{n-i} - (n-i) p^i (1-p)^{n-i-1})

     \implies \frac{d}{dp} F_X(p) = - (n-k) \left(\begin{array}{c} n \\ k \end{array}\right) p^k (1-p)^{n-k-1}

     \implies \frac{d}{dp} F_X(p) =  \frac{d}{dp} f(p)

     \implies F_X(p) = f(p) + CC 为常数

     F_X(0) = f(0) = 1 \implies C = 0

    这就证明了 F_X(p) = f(p),且 F_X(p) 是 p 的单调递减函数。

    五、泊松分布的可加性和极值

    设随机变量 X_1 ~ P(\lambda_1), X_2 ~ P(\lambda_2),且相互独立,那么随机变量 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

    证明:

    从泊松分布的定义进行考虑,X_1 表示在一段时间内事件 A_1 发生的次数,X_2 表示在一段时间内事件 A_2 发生的次数,那么 X_1  + X_2就表示在一段时间内事件 A_1 + A_2 发生的次数,所以 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

    下面通过计算进行证明:

     P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

     = \frac{ e^{-(\lambda_1 + \lambda_2)} }{ k! } \sum_{i=0}^k \left(\begin{array}{c} k \\ i \end{array}\right) \lambda_1^i \lambda_2^{k - i}

     = e^{-(\lambda_1 + \lambda_2)} \frac{ (\lambda_1 + \lambda_2)^k }{ k! }

    这就证明了 X_1 + X_2 ~ P(\lambda_1 + \lambda_2),结论可以推广到 n 个独立的泊松分布随机变量的情况:若相互独立的随机变量 X_i ~ P(\lambda_i), i = 1,2,\dots,n,则 \sum_{i=1}^n X_i ~ P(\sum_{i=1}^n \lambda_i)

    设随机变量 X ~ P(\lambda),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, + \infty] 区间内单调非增,其中 k^* = \lfloor \lambda \rfloor

    证明:

    设 k = 1, 2, \dots,则分布列的比值为:

     f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ \lambda }{ k }

    可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

     k = \lambda \implies k^* = \lfloor \lambda \rfloor

    这就证明了泊松分布的分布列在 k^* 处取的最大值,特别的:

    当 \lambda \le 1 时,即单位时间内事件发生的平均次数特别小时,P_X(k) 在 [0, +\infty] 上都是单调非增的;

    当 \lambda > 1 时,P_X(k) 先增大后减小,并在 k^* 处达到最大值;

    六、泊松分布的分布函数

    设随机变量 X ~ P(\lambda),则分布函数 F_X(\lambda)\lambda 的单调递减函数,且有:

     F_X(\lambda) = f(\lambda) = \frac{1}{k!} \int_\lambda^{\infty} t^k e^{-t} dt, k \ge 0

    证明:

     F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} \frac{ \lambda^i }{ i! }

     \implies \frac{d}{d\lambda} F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} ( \frac{ i \lambda^{i-1} }{ i! } - \frac{\lambda^i}{i!} )

     \implies \frac{d}{d\lambda} F_X(\lambda) = - e^{-\lambda} \frac{\lambda^k}{k!} = \frac{d}{d\lambda} f(\lambda)

     \implies F_X(\lambda) = f(\lambda) + CC 为常数

     F_X(0) = f(0) = 1 \implies C=0

    这就证明了 F_X(\lambda) = f(\lambda),且 F_X(\lambda) 是 \lambda 的单调递减函数。

    相关文章

      网友评论

        本文标题:二项分布和泊松分布

        本文链接:https://www.haomeiwen.com/subject/mqjqcktx.html