美文网首页
[Skill]程序员须掌握的概率统计基础知识

[Skill]程序员须掌握的概率统计基础知识

作者: TOMOCAT | 来源:发表于2020-03-22 22:12 被阅读0次

    前言

    计算机科学作为理工科一个独特的分支,本质上仍然是建立在逻辑思维上的一门科学,良好的概率论思维有助于设计高效可行的算法。

    常见的概率分布

    1. 古典概型和几何概型

    古典概型适用于随机事件E的样本空间只有有限个样本点,而几何概型适用于样本空间是某一可度量的几何区域。

    • 古典概型

    设随机实验E的样本空间为\Omega = \{w_1,w_2, ..., w_n\},其中n为样本点总数,每个样本点出现的概率是相等的,并且每次实验有且仅有一个样本点发生。如果事件A包含m个样本点,那么对应的概率P(A)为:
    P(A) = \frac{m}{n}

    • 几何概型

    当随机实验E的样本空间是某一可度量的几何区域,并且任意一点在度量(长度、面积和体积等)相同的子区域内是等概率的,则事件A的概率为:
    P(A) = \frac{S_A}{S}

    2. 条件概率

    即在某个事件已经发生的条件下另一事件发生的概率。

    AB是两个事件,而且P(B)>0,称:
    P(A|B) = \frac{P(AB)}{P(B)}
    为在事件B发生的条件下,事件A发生的条件概率。

    3. 三条重要的公式:乘法公式、全概率公式和贝叶斯公式

    • 乘法公式

    根据条件概率公式,我们可以得到:
    P(AB) = P(A|B)P(B) = P(B|A)P(A)
    可推广到任意正整数n \geq 2的情形,当P(A_1A_2...A_{n-1})>0时,有:
    P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})

    • 全概率公式

    也是基于条件概率公式推导的,如果B_1,B_2,...是样本空间\Omega的一个划分,即满足B_i,i = 1,2,...互不相交且:
    B_1 \cup B_2 \cup ... = \Omega
    对于任意事件A,我们可以得到全概率公式如下:
    P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)

    • 贝叶斯公式

    整合了乘法公式和全概率公式:
    P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}, j=1,2,...

    4. 独立事件

    如果两事件发生的概率等于这两个事件发生概率的乘积,则可以认为这俩事件独立,即:
    P(AB) = P(A)P(B)

    这是从统计学上给出的独立定义,现实生活中我们也可以通过经验敲定两个事件的大致独立性,尽管它们可能存在千丝万缕的关联。

    5. n重伯努利实验

    如果一个随机试验只有两种可能的结果A\bar{A},且:
    P(A) = p, P(\bar{A}) = 1-p=q
    那么此试验即是伯努利实验,如果该实验独立重复地进行n次就是n重伯努利试验。设A_kn重伯努利实验中A出现k次的概率,则P(A)可表示为:
    P(A_k)=C_{n}^{k}p^k(1-p)^{n-k}, k =0,1,2,...
    这就是二项分布,常记成B(n,k)

    常见的分布函数

    1.随机变量的分布函数

    X为一个随机变量,则对任意的实数x,该随机变量的分布函数可表示为:
    F(x) = P\{X<x\}, x\in(-\infty, +\infty)

    2.离散型随机变量的分布

    • 离散型随机变量

    离散型随机变量指的是随机变量X的全部可能取值为有限多个或可列无穷多个。

    记离散型随机变量X取值为x_k的概率为P\{X=x_k\}=p_k,离散型随机变量X的分布律p_k满足p_k \geq 0\sum_{k=1}^{\infty}p_k=1

    • 两点分布

    两点分布X \sim B(1,p)中随机变量X的分布律为:
    P\{X=k\}=p^k(1-p)^{1-k}, k = 0,1 (0<p<1)

    • 伯努利分布

    若随机变量X服从参数为np的二项分布X\sim B(n,p),则其分布律满足:
    P\{X=k\} = C_n^k p^k(1-p^{n-k}), k=0,1,2,...,n

    其代表的含义表示n重伯努利实验中A恰好发生k次的概率。

    • 泊松分布

    若随机变量X服从参数为\lambda的泊松分布X\sim P(\lambda),则其分布律满足:
    P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2...,

    3.连续型随机变量的分布

    • 连续型随机变量

    如果X为连续型随机变量,则存在一个定义在(-\infty,+\infty)上的非负函数f(x),使得对于任意实数x,总有:
    F(x) = P\{X\leq x\} = \int_{-\infty}^{x} f(t) dt,-\infty < x < +\infty

    • 均匀分布

    若随机变量X服从区间[a,b]上的均匀分布X\sim U[a,b],则其概率密度函数为:
    f(x) = \left\{\begin{matrix} \frac{1}{b-a}, &a\leq x\leq b \\ 0 ,&others \end{matrix}\right.

    • 指数分布

    若随机变量X服从参数为\lambda的指数分布,则其概率密度函数为:
    f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x}, & x\geq 0 \\ 0 ,& x<0 \end{matrix}\right.

    • 正态分布

    若随机变量X服从参数为\mu\sigma的正态分布X\sim N(\mu,\sigma^2),则其概率密度函数为:
    f(x) = \frac{1}{\sqrt{2\pi \sigma}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}, -\infty < x <+\infty

    3.离散型二维随机向量

    记离散型而维随机向量(X,Y)取值为(x_i,y_j)的概率为P\{X=x_i,Y=y_j\} = p_{ij}, i,j=1,2,...,且其分布律满足\sum_{i}\sum_{j}p_{ij}=1

    4.连续型二维随机向量

    如果(X,Y)是连续型的二维随机向量,则存在一个非负函数f(x,y)使得对于任意的x,y均满足:
    F(x,y) = \int_{-\infty}^y \int_{-\infty}^{x} f(u,v) dudv

    • 二维均匀分布

    若二维连续型随机向量(X,Y)在区域D内服从二维均匀分布(其中区域D的面积值为A),则其概率密度函数为:
    f(x,y) = \left\{\begin{matrix} \frac{1}{A}, &(x,y)\in D \\ 0 ,&others \end{matrix}\right.

    • 二维正态分布

    若二维连续型随机向量(X,Y)服从参数为\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,|\rho|<1的二维正态分布(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho),则其概率密度函数为:
    f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp\{-\frac{1}{2(1-\rho^2)}\Big[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\Big]\}

    随机变量的数字特征

    1.数学期望

    数学期望指的就是随机变量在不同概率下的取值的平均值。

    离散型随机变量的数学期望为:
    E(X) = \sum_i x_ip_i
    连续型随机变量的数学期望为:
    E(X = \int_{-\infty}{+\infty} xf(x)dx

    2.方差

    方差用于描述随机变量取值相对于均值的离散程度,从一定程度上描述了随机变量的“不稳定性”。

    X为随机变量,则其方差可表述为:
    Var(X) = E\{[X-E(X)]^2\}
    \sqrt{Var(X)}也被称为X的标准差standard deviation或均方差root mean square

    3.协方差

    协方差用于描述两个随机变量之间的线性联系关系。

    X,Y为两个随机变量,则其协方差可表述为:
    Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}

    4.相关系数

    如果采用协方差来描述两个随机变量之间的线性联系关系,常常会受限于随机变量本身的量纲,数学中常采用标准化的方法来去除量纲的影响,这也是相关系数引入的一个原因。

    随机变量X,Y的相关系数可以表述为:
    \rho(X,Y) = \frac{Cove(X,Y)}{\sqrt{Var(X)Var(Y)}}

    极限定理

    极限定理是概率论的基本定理之一,在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中,最重要的就是大数定理和中心极限定理。

    1.大数定理

    大数定理是判断随机变量的算数平均值是否向常数收敛的定律,是概率论和数理统计的基本定律之一。设X_1,X_2,...,X_k,...是随机变量序列且E(X_k)存在,令Y_n=\frac{1}{n}\sum_{k=1}^{n}X_k,若对于任意给定的\epsilon>0,有:
    \lim_{n\rightarrow\infty}P\{|Y_n-E(Y_n)|\geq \epsilon\} = 0
    则称随机变量序列\{X_k\}服从大数定律。

    • 伯努利大数定律

    n_An次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意的正数\epsilon>0,有:
    \lim_{n\rightarrow \infty}P\{|\frac{n_A}{n}-p|<\epsilon\} = 1

    伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

    • 切比雪夫大数定律

    设随机变量X_1,X_2,...,X_k,...相互独立,且具有相同的期望与方差,则对于任意的正数\epsilon>0,有:
    \lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\}=1

    • 辛倾大数定律

    设随机变量X_1,X_2,...,X_k,...相互独立,服从相同的分布,且其期望E(X_k)=\mu,则对于任意的正数\epsilon>0,有:
    \lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\} = 1

    2.切比雪夫不等式

    揭示了大数定律背后的数学原理。

    设随机变量X具有期望E(X)=\mu,方差Var(X)= \sigma^2,则对于任意\epsilon>0,有:
    P\{|X-\mu|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2}

    3.中心极限定理

    中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中,一些现象收到许多相互独立的随机因素的影响,如果每个因素的影响都很小,那么总的影响可以看作是服从正态分布,中心极限定理正是从数学上论证了这一现象。

    凡是在一定条件下,断定随机变量序列X_1,X_2,...,X_k,...的部分和Y_n=\sum_{k=1}^{n}X_k的极限分布为正态分布的定理,均称为中心极限定理。

    • 独立同分布的中心极限定理

    设随机变量X_1,X_2,...,X_k,...相互独立,服从同一分部,并且具有期望和方差:E(X_k)=\mu,Var(X_k)=\sigma^2>0,k=1,2,...,,则随机变量:
    Y_n = \frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}
    的分布函数收敛至标准正态分布函数。从中心极限定理可知,当n足够大时,Y_n近似服从标准正态分布N(0,1)

    4.拉普拉斯中心极限定理

    设随机变量X_1,X_2,...,X_k,...相互独立,并且服从参数为p的两点分布,则对于任意实数x,有:
    \lim_{n\rightarrow\infty}P\Big\{\frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}}\leq x\Big\} = \Phi(x)
    \sum_{i=1}^{n}X_i服从二项分布B(n,p),当n足够大时,B(n,p)近似于正态分布,它是独立同分布的中心极限定理的特殊情况。

    数理统计的基本概念

    1.总体,个体和简单随机样本

    在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体,组成总体的每个基本单元叫做个体。从总体X中随机抽取一部分个体X_1,X_2,...,X_n,称其为取自X的容量为n的样本。

    若总体X具有分布函数F(x),则(X_1,X_2,...)的概率联合分布为:
    F(X_1,X_2,...,X_n) = \prod_{i=1}^{n}F(x_i)
    联合概率密度函数:
    f(X_1,X_2,...,X_n)=\prod_{i=1}^{n}f(x_i)

    2.统计量与抽样分布

    数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,一次对所研究的问题做出一定的结论,这一过程被称为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量,因此统计量是样本的某中函数。

    X_1,X_2,...,X_n是总体X的一个简单随机样本,T(X_1,X_2,...,X_n)为一个n元连续函数,且T中不含任何关于总体的未知函数,则称其为一个统计量,称统计量的分布为抽样分布。

    3.常用的统计量

    常用的统计量包括样本均值、样本方差、k阶样本原点矩、k阶样本中心矩和顺序统计量等。

    4.常用的分布

    • 卡方分布

    X_1,X_2,...,X_n是来自总体N(0,1)的一个简单随机样本则称统计量:
    Y=X_1^2+X_2^2+...+X_n^2
    为服从自由度为nX^2分布。

    • t分布

    X\sim N(0,1),Y\sim X^2(n),且X,Y相互独立,则称随机变量:
    T=\frac{X}{\sqrt{Y/n}}
    为服从自由度为nt分布。

    • F分布

    X\sim X^2(n), Y\sim X^2(m),且XY相互独立,则称随机变量:
    F=\frac{X/n}{Y/m}
    为服从自由度为(n,m)F分布。

    Reference

    [1] 统计建模与R语言

    相关文章

      网友评论

          本文标题:[Skill]程序员须掌握的概率统计基础知识

          本文链接:https://www.haomeiwen.com/subject/zpsbyhtx.html