[Skill]程序员须掌握的概率统计基础知识

作者: TOMOCAT | 来源:发表于2020-03-22 22:12 被阅读0次

[Skill]程序员须掌握的概率统计基础知识
[技术资源更新]统计思维：程序员数学之概率统计、编程之法：面试和
概率统计
数据挖掘数据分析
day06
第二回:概率初步
死磕数据分析(2)-如何从纷繁复杂的数据中总结特征
day06
day06
机器学习之旅二：概率论

前言

计算机科学作为理工科一个独特的分支，本质上仍然是建立在逻辑思维上的一门科学，良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件 $E$ 的样本空间只有有限个样本点，而几何概型适用于样本空间是某一可度量的几何区域。

古典概型

设随机实验 $E$ 的样本空间为 $\Omega = \{w_1,w_2, ..., w_n\}$ ，其中 $n$ 为样本点总数，每个样本点出现的概率是相等的，并且每次实验有且仅有一个样本点发生。如果事件 $A$ 包含 $m$ 个样本点，那么对应的概率 $P(A)$ 为：
$P(A) = \frac{m}{n}$

几何概型

当随机实验 $E$ 的样本空间是某一可度量的几何区域，并且任意一点在度量（长度、面积和体积等）相同的子区域内是等概率的，则事件 $A$ 的概率为：
$P(A) = \frac{S_A}{S}$

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

设 $A$ 和 $B$ 是两个事件，而且 $P(B)>0$ ，称：
$P(A|B) = \frac{P(AB)}{P(B)}$
为在事件 $B$ 发生的条件下，事件 $A$ 发生的条件概率。

3. 三条重要的公式：乘法公式、全概率公式和贝叶斯公式

乘法公式

根据条件概率公式，我们可以得到：
$P(AB) = P(A|B)P(B) = P(B|A)P(A)$
可推广到任意正整数 $n \geq 2$ 的情形，当 $P(A_1A_2...A_{n-1})>0$ 时，有：
$P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})$

全概率公式

也是基于条件概率公式推导的，如果 $B_1,B_2,...$ 是样本空间 $\Omega$ 的一个划分，即满足 $B_i,i = 1,2,...$ 互不相交且：
$B_1 \cup B_2 \cup ... = \Omega$
对于任意事件 $A$ ，我们可以得到全概率公式如下：
$P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)$

贝叶斯公式

整合了乘法公式和全概率公式：
$P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}, j=1,2,...$

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积，则可以认为这俩事件独立，即：
$P(AB) = P(A)P(B)$

这是从统计学上给出的独立定义，现实生活中我们也可以通过经验敲定两个事件的大致独立性，尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果 $A$ 和 $\bar{A}$ ，且：
$P(A) = p, P(\bar{A}) = 1-p=q$
那么此试验即是伯努利实验，如果该实验独立重复地进行 $n$ 次就是 $n$ 重伯努利试验。设 $A_k$ 为 $n$ 重伯努利实验中 $A$ 出现 $k$ 次的概率，则 $P(A)$ 可表示为：
$P(A_k)=C_{n}^{k}p^k(1-p)^{n-k}, k =0,1,2,...$
这就是二项分布，常记成 $B(n,k)$ 。

常见的分布函数

1.随机变量的分布函数

设 $X$ 为一个随机变量，则对任意的实数 $x$ ，该随机变量的分布函数可表示为：
$F(x) = P\{X<x\}, x\in(-\infty, +\infty)$

2.离散型随机变量的分布

离散型随机变量

离散型随机变量指的是随机变量 $X$ 的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量 $X$ 取值为 $x_k$ 的概率为 $P\{X=x_k\}=p_k$ ，离散型随机变量 $X$ 的分布律 $p_k$ 满足 $p_k \geq 0$ 且 $\sum_{k=1}^{\infty}p_k=1$

两点分布

两点分布 $X \sim B(1,p)$ 中随机变量 $X$ 的分布律为：
$P\{X=k\}=p^k(1-p)^{1-k}, k = 0,1 (0<p<1)$

伯努利分布

若随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布 $X\sim B(n,p)$ ，则其分布律满足：
$P\{X=k\} = C_n^k p^k(1-p^{n-k}), k=0,1,2,...,n$

其代表的含义表示 $n$ 重伯努利实验中 $A$ 恰好发生 $k$ 次的概率。

泊松分布

若随机变量 $X$ 服从参数为 $\lambda$ 的泊松分布 $X\sim P(\lambda)$ ，则其分布律满足：
$P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2...,$

3.连续型随机变量的分布

连续型随机变量

如果 $X$ 为连续型随机变量，则存在一个定义在 $(-\infty,+\infty)$ 上的非负函数 $f(x)$ ，使得对于任意实数 $x$ ，总有：
$F(x) = P\{X\leq x\} = \int_{-\infty}^{x} f(t) dt,-\infty < x < +\infty$

均匀分布

若随机变量 $X$ 服从区间 $[a,b]$ 上的均匀分布 $X\sim U[a,b]$ ，则其概率密度函数为：
$f(x) = \left\{\begin{matrix} \frac{1}{b-a}, &a\leq x\leq b \\ 0 ,&others \end{matrix}\right.$

指数分布

若随机变量 $X$ 服从参数为\lambda的指数分布，则其概率密度函数为：
$f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x}, & x\geq 0 \\ 0 ,& x<0 \end{matrix}\right.$

正态分布

若随机变量 $X$ 服从参数为 $\mu$ 和 $\sigma$ 的正态分布 $X\sim N(\mu,\sigma^2)$ ，则其概率密度函数为：
$f(x) = \frac{1}{\sqrt{2\pi \sigma}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}, -\infty < x <+\infty$

3.离散型二维随机向量

记离散型而维随机向量 $(X,Y)$ 取值为 $(x_i,y_j)$ 的概率为 $P\{X=x_i,Y=y_j\} = p_{ij}, i,j=1,2,...$ ，且其分布律满足 $\sum_{i}\sum_{j}p_{ij}=1$ 。

4.连续型二维随机向量

如果 $(X,Y)$ 是连续型的二维随机向量，则存在一个非负函数 $f(x,y)$ 使得对于任意的 $x,y$ 均满足：
$F(x,y) = \int_{-\infty}^y \int_{-\infty}^{x} f(u,v) dudv$

二维均匀分布

若二维连续型随机向量 $(X,Y)$ 在区域 $D$ 内服从二维均匀分布（其中区域 $D$ 的面积值为 $A$ ），则其概率密度函数为：
$f(x,y) = \left\{\begin{matrix} \frac{1}{A}, &(x,y)\in D \\ 0 ,&others \end{matrix}\right.$

二维正态分布

若二维连续型随机向量 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,|\rho|<1$ 的二维正态分布 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ ，则其概率密度函数为：
$f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp\{-\frac{1}{2(1-\rho^2)}\Big[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\Big]\}$

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为：
$E(X) = \sum_i x_ip_i$
连续型随机变量的数学期望为：
$E(X = \int_{-\infty}{+\infty} xf(x)dx$

2.方差

方差用于描述随机变量取值相对于均值的离散程度，从一定程度上描述了随机变量的“不稳定性”。

设 $X$ 为随机变量，则其方差可表述为：
$Var(X) = E\{[X-E(X)]^2\}$
$\sqrt{Var(X)}$ 也被称为 $X$ 的标准差standard deviation或均方差root mean square。

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

设 $X,Y$ 为两个随机变量，则其协方差可表述为：
$Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}$

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系，常常会受限于随机变量本身的量纲，数学中常采用标准化的方法来去除量纲的影响，这也是相关系数引入的一个原因。

随机变量 $X,Y$ 的相关系数可以表述为：
$\rho(X,Y) = \frac{Cove(X,Y)}{\sqrt{Var(X)Var(Y)}}$

极限定理

极限定理是概率论的基本定理之一，在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中，最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律，是概率论和数理统计的基本定律之一。设 $X_1,X_2,...,X_k,...$ 是随机变量序列且 $E(X_k)$ 存在，令 $Y_n=\frac{1}{n}\sum_{k=1}^{n}X_k$ ，若对于任意给定的 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-E(Y_n)|\geq \epsilon\} = 0$
则称随机变量序列 $\{X_k\}$ 服从大数定律。

伯努利大数定律

设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow \infty}P\{|\frac{n_A}{n}-p|<\epsilon\} = 1$

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

切比雪夫大数定律

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，且具有相同的期望与方差，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\}=1$

辛倾大数定律

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，服从相同的分布，且其期望 $E(X_k)=\mu$ ，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\} = 1$

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量 $X$ 具有期望 $E(X)=\mu$ ，方差 $Var(X)= \sigma^2$ ，则对于任意 $\epsilon>0$ ，有：
$P\{|X-\mu|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2}$

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中，一些现象收到许多相互独立的随机因素的影响，如果每个因素的影响都很小，那么总的影响可以看作是服从正态分布，中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下，断定随机变量序列 $X_1,X_2,...,X_k,...$ 的部分和 $Y_n=\sum_{k=1}^{n}X_k$ 的极限分布为正态分布的定理，均称为中心极限定理。

独立同分布的中心极限定理

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，服从同一分部，并且具有期望和方差： $E(X_k)=\mu,Var(X_k)=\sigma^2>0,k=1,2,...,$ ，则随机变量：
$Y_n = \frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}$
的分布函数收敛至标准正态分布函数。从中心极限定理可知，当 $n$ 足够大时， $Y_n$ 近似服从标准正态分布 $N(0,1)$ 。

4.拉普拉斯中心极限定理

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，并且服从参数为 $p$ 的两点分布，则对于任意实数 $x$ ，有：
$\lim_{n\rightarrow\infty}P\Big\{\frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}}\leq x\Big\} = \Phi(x)$
$\sum_{i=1}^{n}X_i$ 服从二项分布 $B(n,p)$ ，当 $n$ 足够大时， $B(n,p)$ 近似于正态分布，它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体，个体和简单随机样本

在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体，组成总体的每个基本单元叫做个体。从总体 $X$ 中随机抽取一部分个体 $X_1,X_2,...,X_n$ ，称其为取自 $X$ 的容量为 $n$ 的样本。

若总体 $X$ 具有分布函数 $F(x)$ ，则 $(X_1,X_2,...)$ 的概率联合分布为：
$F(X_1,X_2,...,X_n) = \prod_{i=1}^{n}F(x_i)$
联合概率密度函数：
$f(X_1,X_2,...,X_n)=\prod_{i=1}^{n}f(x_i)$

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据，或者说收集样本并对之进行加工，一次对所研究的问题做出一定的结论，这一过程被称为统计推断。在统计推断中，对样本进行加工整理，实际上就是根据样本计算出一些量，使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量，因此统计量是样本的某中函数。

设 $X_1,X_2,...,X_n$ 是总体 $X$ 的一个简单随机样本， $T(X_1,X_2,...,X_n)$ 为一个 $n$ 元连续函数，且 $T$ 中不含任何关于总体的未知函数，则称其为一个统计量，称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、 $k$ 阶样本原点矩、 $k$ 阶样本中心矩和顺序统计量等。

4.常用的分布

卡方分布

设 $X_1,X_2,...,X_n$ 是来自总体 $N(0,1)$ 的一个简单随机样本则称统计量：
$Y=X_1^2+X_2^2+...+X_n^2$
为服从自由度为 $n$ 的 $X^2$ 分布。

t分布

设 $X\sim N(0,1),Y\sim X^2(n)$ ，且 $X,Y$ 相互独立，则称随机变量：
$T=\frac{X}{\sqrt{Y/n}}$
为服从自由度为 $n$ 的 $t$ 分布。

F分布

设 $X\sim X^2(n), Y\sim X^2(m)$ ，且 $X$ 和 $Y$ 相互独立，则称随机变量：
$F=\frac{X/n}{Y/m}$
为服从自由度为 $(n,m)$ 的 $F$ 分布。

Reference

[1] 统计建模与R语言

[Skill]程序员须掌握的概率统计基础知识
前言计算机科学作为理工科一个独特的分支，本质上仍然是建立在逻辑思维上的一门科学，良好的概率论思维有助于设计高效可...
[技术资源更新]统计思维：程序员数学之概率统计、编程之法：面试和
统计思维：程序员数学之概率统计 (图灵程序设计丛书) 公众号回复”41357”获取下载地址代码跑出来的概率统计问...
概率统计
数据科学家基础能力之概率统计使用概率的语言概率统计中的“概率”，对于学习和掌握人工智能的诸多方面都有着举足轻重...
数据挖掘数据分析
数据挖掘：预备基础知识：概率论、线性代数、信息论、概率论、统计学。编程基础：数据库、pytho...
day06
A今天学了什么 1.iframe 2.skill B我掌握好的地方 C我掌握不好的地方 1.iframe 2.skill
第二回:概率初步
这一节是讲解关于机器学习中的概率的。概率是基于统计的机器学习中最重要的基础知识。由于从零开始讲解概率是有点不现实...
死磕数据分析(2)-如何从纷繁复杂的数据中总结特征
统计概率思维-描述统计分析 1# 为什么要学统计学？人工智能的基础知识投资领域的必备知识时代的入口 2# 描...
day06
A我今天学了什么 1.iframe 2.skill 3切图 B我今天掌握了什么 2.skill C我今天没掌握什么...
day06
1我今天学了什么 1iframe 2skill 3切图 2我掌握了什么 2skill 3我没掌握的 1iframe
机器学习之旅二：概率论
以下文章作为个人学习的知识总结机器学习也叫做统计学习，因为大部分机器学习算法建立在概率统计理论基础之上，掌握概率...