美文网首页
2019-10-23

2019-10-23

作者: 罗泽坤 | 来源:发表于2019-11-17 12:03 被阅读0次

1.6 多维随机变量及其分布:

1.6.1 离散型多维随机变量:

随着科学的发现和概率统计应用的不断推广,在有些随机现象中,对每个样本点\omega只用一个随机变量去描述是不够的,譬如要研究儿童的生长发育情况,仅仅研究儿童身高X或者只研究其体重Y是很片面的,必须把身高和体重当做一个整体来考虑,讨论他们总体的变化的统计规律,进一步还可以讨论X和Y的相关关系,有些随机变量甚至还要研究两个以上的随机变量,也就是说一个随机试验结果与多个数值相对应.

\xi_1,\xi_2,\cdots ,\xi_n为样本空间 \Omega上的n个随机变量,则称n个随机变量则称n维向量(\xi_1,\xi_2,\cdots,\xi_n)为样本空间\Omega一个n维随机变量.

在高等代数和数学分析中我们了解到当一个向量的维度增加或者是积分的重数增加的时候会增加许多的新问题,但是只要我们先把简单的问题先解决了然后在把问题推广到复杂的问题就可以了,因此我们先来讨论二维离散型随机变量的情形

不妨设(\xi,\eta)为一个二维离散型随机变量,则他们的一切可能的取值为(a_i,b_j),i,j=1,2,\cdots则令

p_{ij}=p(\xi=a_i,\eta=b_j),i,j=1,2,\cdots为二维离散型随机变量(\xi,\eta)的分布列即联合分布列,其计算方式利用概率的乘法公式即可,与一维的情形相类似可以把二维情形也写成一张表如下所示:

\xi/\eta b_1 b_2 \cdots p_{i.}
a_1 p_{11} p_{12} \cdots p_{1.}
a_2 p_{21} p_{22} \cdots p_{2.}
\vdots \vdots \vdots \vdots
p_{.j} p_{.1} p_{.2} p_{.3}

可以看到在二维离散型随机变量的分布列中多了两列p_{i.}和p_{.j},二者实际分别为\xi 和 \eta 的分布列也即边际分布列

所谓边际分布列也即多维随机变量中单个随机变量的分布列.

而且假若\xi与\eta是相互独立的则其联合分布列p(\xi=a_i,\eta=b_i)=p(\xi=a_i)p(\eta=b_i)=p_{i.}p_{.j},i\ j=1,2,\cdots

1.6.2 多维随机变量的分布函数即联合分布函数:

对任意的n个实数x_1,x_2,\cdots,x_n,对n个随机事件X_1,X_2,\cdots,X_n则称n个事件X_1 \leqslant x_1,X_2 \leqslant x_2,\cdots,X_n \leqslant x_n

同时发生的概率:

F(x_1,x_2,\cdots,x_n)=P(X_1 \leqslant x_1,X_2 \leqslant x_2,\cdots,X_n \leqslant x_n)称之为n维随机变量(X_1,X_2,\cdots,x_n)联合分布函数.

联合分布函数满足单调性,有界性,右连续性,非负性这四条性质,这是任何一个函数成为分布函数的充要条件.

1.6.3 多维连续型随机变量:

上面我们介绍了离散型多维随机变量的分布函数,那么对于多维连续型随机随机变量而言自然就会有联合密度函数

但是密度函数具有什么样的形态嘞?既然一维连续型随机变量的密度函数是一条曲线,曲线的面积就是概率,那么我们也有理由想到二维连续型随机变量的密度函数在空间上应该是一条曲面,其体积就是概率,于是按照这种思路我们就可以合理的定义二维离散型随机变量的密度函数和分布函数.

如果F(x,y)是一个联合分布函数,若存在函数p(x,y)使得对任意的(x,y)

F(x,y)=\int^x_{-\infty}\int^y_{-\infty}p(u,v)\mathrm{d}x\mathrm{d}y

则称p(x,y)F(x,y)的联合密度函数.这样的定义显然是合理的,一维连续型随机变量的分布函数是一重积分二维离散型随机变量为二重积分,一维的概率密度为一元函数二维的为二元函数.显然p(x,y)=\dfrac{\partial^2F(x,y)}{\partial x\partial y}

同理二维连续型随机变量的概率密度也必须满足正则性和非负性这两条性质.

1.6.3.1 边际分布与边际密度:

设若有二维连续型随机变量的分布函数F(x,y)=\int^x_{-\infty}\int^y_{-\infty}p(u,v)\mathrm{d}x\mathrm{d}y .

则二维连续型随机变量的关于x与关于y的边际分布分别为:

F_\xi(x)=F(x,+\infty) ,F_{\eta}(y)=F(+\infty,y)

然后交换积分次序分别对以上两式求导之后我们就可以得到关于两边际分布的边际密度函数如下:

p_{\xi}(x)=F^{\prime}_{\xi}(x)=\int^{+\infty}_{-\infty}p(x,v)\mathrm{d}v

p_{\eta}(y)=F^{\prime}_{\eta}(y)=\int^{+\infty}_{-\infty}p(u,y)\mathrm{d}u

通常情况下边际分布并不能唯一的决定他们的联合分布譬如:

对于二维正态分布而言记作N(a_1,a_2,\sigma^2_1,\sigma^2_2,\rho) 二维正态分布由五个参数所决定,其两个边际分布分别为N(a_1,\sigma^2_1)N(a_2,\sigma^2_2) ,当由任意两个边际分布与之相同时候也不能推出其联合分布就是N(a_1,a_2,\sigma^2_1,\sigma^2_2,\rho) 因为联合分布不仅仅有五个参数\rho这个参数其实是两个边际分布随机变量的相关系数.

既然一般情况下边际分布不能决定其联合分布,那么对于不一般的情况嘞?有没有可能在某种条件下联合分布就是边际分布的乘积?

1.6.3.2 随机变量间的独立性:

设n维随机变量(X_1,X_2,\cdots,X_n)的联合分布函数为F(x_1,x_2,\cdots,x_n),F_{i}(x_i)X_i的边际分布函数.如果对任意的n个实数x_1,x_2,\cdots,x_n

F(x_1,x_2,\cdots,x_n)=\overset{n}{\underset{i=1}\prod}F_i(x_i).

则称n个随机变量相互独立.

在讨论二维离散型随机变量的分布列的时候我们知道当两个随机变量相互独立的时候其联合分布列等于其边际分布列的乘积,积边际分布列唯一的决定了其联合分布列,由此能够产生直觉是不是对于二维连续型随机变量的分布列也有如此的性质嘞?答案是肯定的,因为离散型与连续型的差别仅仅是在随机变量取值方面罢了,他们的分布应该是具有一定程度的相似度的是能够进行类比的,于是经过数学家们的验证提出了如下的定理:

设二维连续型随机变量(\xi,\eta) 的联合分布函数为F(x,y),又\xi\eta 的分布函数为F_{\xi}(x),F_{\eta}(y),若对任意的(x,y)

F(x,y)=F_{\xi}(x)F_{\eta}(y)

则称随机变量\xi\eta是相互独立的,这时容易验证两随机变量相互独立的充要条件是其联合密度函数的乘积等于其边际密度函数的乘积即:p_{\xi}(x)p_{\eta}(y)(\xi,\eta)的密度函数.

请读者朋友注意笔者忽略了各种定理的证明过程只强调了其意义和思想的来源,不代表论证过程不重要,论证过程能够帮助你理解和加强记忆,事实上很多的数学问题都是从推理中得出来的, 笔者在学习的时候也是把论证过程看懂了的并且有些重要的论证过程自己关上书本还特意推理过.

1.6.4 多维随机变量的函数分布:

(一)和的分布:

(\xi,\eta)是一个二维离散型随机变量,密度函数为p(x,y),现在来求\lambda=\xi+\eta的分布,按照定义为

F_{\lambda}(y)=P(\lambda \leqslant y)=P(\xi+\eta \leqslant y)=\underset{x_1+x_2 \leqslant y}\iint p(x_1,x_2)\mathrm{d}x_1\mathrm{d}x_2=\int^{+\infty}_{-\infty}(\int^{y-x_1}_{-\infty}p(x_1,x_2)\mathrm{d}x_2)x_1

用密度函数p_{\xi}(x_1)p_{\eta}(x_2)代替密度函数p(x_1,x_2)

可得:P(\lambda \leqslant y)=\int^y_{-\infty}(\int^{+\infty}_{-\infty}p_{\xi}(x_1)p_{\eta}(z-x_1)\mathrm{d}x_1)\mathrm{d}z=F_{\lambda}(y)

则对p_{\lambda}(y)=F^{\prime}_{\lambda}(y)=\int^{+\infty}_{-\infty}p_{\xi}(x)p_{\eta}(y-x)\mathrm{d}x.

同理有对称性可以求出:p_{\lambda}(x)=F^{\prime}_{\lambda}(y)=\int^{+\infty}_{-\infty}p_{\xi}(y-x)p_{\eta}(x)\mathrm{d}y.

以上所得和分布的边际密度通常称之为概率密度的卷积公式,显然和的分布函数主要是要确定好分布函数的积分区域然后将二重积分化为累次积分即可.

以下给出一些具有可加性的常用结论:

假设随机变量相互独立

  • 二项分布:

    \xi \sim b(n,p),\eta \sim b(m,p),且二者独立,则\xi + \eta \sim b(n+m,p).

  • 泊松分布:

    \xi \sim P(\lambda_1),\eta \sim P(\lambda_2), 且二者相互独立,则\xi + \eta \sim P(\lambda_1+\lambda_2)

  • 正态分布:

    \xi + \eta \sim N(\mu_1+\mu_2,\sigma_1^2+\sigma^2_1)

  • 伽马分布:

    \xi + \eta \sim Ga(\alpha_1+\alpha_2,\lambda)

  • 卡方分布:

    \xi + \eta \sim \chi^2(n_1+n_2)

  • m个两点分布的随机变量的和服从试验次数为m的二项分布

  • 服从几何分布的m个随机变量的和负二项分布Nb(m,p)

  • 服从\lambda 的m个指数分布的和服从伽马分布\Gamma(m,\lambda)

(二) 商的分布与和的分布:

这个主要是利用二重积分的变量替换利,用雅可比行列式进行变量替换之后在利用求边际密度方法求得替换之后的变量的密度函数,然后在积分即得到分布函数.

这里不做过多叙述…….

1.6.5 多维随机变量的特征数:

这里只讨论二维的情形,高于二维的情形在二维的情形上推广之即可.

  • 多维随机变量的数学期望:

    设若二维随机变量(X,Y)的分布用联合分布列P(X=x_i,Y=y_i)或者用联合密度函数p(x_i,y_i)表示,则Z=g(X,Y)的数学期望如下:

    1. 二维离散型随机变量的数学期望:

      对于离散型随机变量而言其分布列只要把Z=g(X,Y)P(X=x_i,Y=y_i)分别对应合并起来即可

      其数学期望表达式为:\underset{i}\sum \underset{j}\sum g(x_i,y_i)P(X=x_i,Y=y_i)

    2. 二维连续型随机变量的数学期望:

      E(Z)=\int^{+\infty}_{-\infty}\int^{+\infty}_{-\infty}g(x,y)p(x,y)\mathrm{d}x\mathrm{d}y.

  • 多维随机变量的方差:

    这个根据数学期望依据方差的计算公式即可,不做过多描述.

  • 数学期望与方差的性质:

    注意这里只列出二维的情形,多维的情形推广之.

    1. (X,Y)是二维随机变量,则有:E(X+Y)=E(X)+E(Y).

    2. 若随机变量XY相互独立,则有:

      E(XY)=E(X)E(Y)

      Var(X\pm Y)=Var(X)+Var(Y)

  • 协方差:

    (X,Y)是一个二维随机变量,若E[(X-E(X))(Y-E(Y))]存在,则称此数学期望为X,Y的协方差,或称为X与Y的相关矩,并将其记为:

    Cov(X,Y)=E[(X-E(X))(Y-E(Y))].

    特别有Cov(X,X)=Var(X).

    从协方差的定义可以看出他是偏差X-E(X)与Y-E(Y)的数学期望,由于偏差可正可负故其协方差也可正可负,取值的正负有其意义,要想理解协方差到底是个什么意思且看下图:

    协方差.png

    假设二维随机变量的取值区域如上图所示,若为二维离散型随机变量的取值也如上图所示只不过不能取到椭圆域内的所有点只去离散个点.假设上图平行于X轴与平行于y轴的两条相交直线的交点坐标为(E(X),E(Y))且将二维随机变量取值的区域分割为R_1,R_2,R_3,R_4四个象限则由协方差的定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]

    当随机变量的取值落在R_1和R_3区域的时候将导致(x-E(X))(y-E(Y)) \gt 0 ,当随机变量的取值落在R_2和R_4区域的时候将导致(x-E(X))(y-E(Y)) \lt 0 ,由此可知当落在R_1,R_3区域的随机变量取值多于R_2,R_4区域取值或者(x,y)R_1,R_3区域的取值,偏离(E(X),E(Y))的程度很大的时候,一般情况下也即R_1,R_3的面积大于R_2,R_4的面积和的时候,将导致E[(X-E(X))(Y-E(Y))] \gt 0 ,这个时候随机变量的取值图形将如上图所示,这时候我们可以看出图形呈现出的情形是X的取值将与Y的取值大致呈现出同时增加的倾向,这时候我们就称两随机变量大致呈现出正相关的关系.

    如果反之随机变量的取值区域呈现出如下情形:

    负相关.png

    此时将与上面的分析相反其相关系数E[(X-E(X))(Y-E(Y))] \lt 0,X的取值与Y的取值大致呈现出同时减小的倾向,则称此时的两随机变量为负相关.

    而当随机变量的取值区域呈现出下面的情况时候:

    不相关.png

这个时候(x-E(X))(y-E(Y)) 的值正负相抵导致E[(X-E(X))(Y-E(Y))] = 0 此时则称两随机变量完全不相关.

上面为了帮助理解相关系数,我们从几何的角度去理解,因为很多的数学问题如果从逻辑上面不好把握的话我们可以从几何上找到突破口,我国著名数学家华罗庚曾经说过:‘’数无形时少直觉,形无数时难入微“,这句话说得相当的精辟,短短14个字就把数与形的关系说得清清楚楚说得你醍醐灌顶、豁然开朗,你不服都不行.确实从几何上面来理解数学更加的直观形象,但是上面我们仅仅是从图形出发来建立什么是多维随机变量的相关性的感性认知,两个随机变量什么时候正相关负相关如果仅仅只是从图形上面感性理解这也是片面的朦胧的不精确的,比如从上面的图形中我们能够感性的认识到如果随机变量取值总区域越偏平即椭圆形状越是扁其线性相关程度就越高,越是呈圆形那么其相关程度就越是低,如果取极限位置即两个随机变量呈现出一条直线那么他们不就是完全相关了吗?但是我们如何去衡量椭圆的扁平程度嘞?用一个什么样的表达式去衡量嘞?这是一个问题,所以我们如果想理性的认识什么是多维随机变量的相关性与不相关,还是得从更加微观的角度即数的角度去认知他,下面我们就从代数出发来认知协方差与标准化后的协方差即相关系数的具体意义

  • 相关系数:

    就如同方差有量纲一样,协方差也是一个有量纲的量,为了比较相关程度的高低我们必须设法去掉协方差的量纲,之前说过方差是描述数据之间的差异与数据的波动程度的一个量,我们为了将不同随机变量的方差进行比较将他们进行了标准化即放在同一个标准下进行比较因此我们将方差比上数学期望去掉了量纲,同方差一样我们也要对协方差进行标准化处理去掉量纲使得不同随机二维变量之间的相关程度具有可比性.

    因此就将标准化后的相关系数称之为协方差:

    设若(X,Y)是一个二维离散型随机变量,且Var(X)=\sigma^2_X \gt 0,Var(Y)=\sigma^2_Y \gt 0 .则称

    Corr(X,Y)=\dfrac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=\dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}.

    为随机变量X,Y的相关系数.由此可见所谓相关系数就是将协方差比上随机变量各自的标准差,相关系数的正负由分子决定,相关系数大于零则说明正相关,小于零则说明负相关,等于零则说明不相关.如果相关系数的作用和协方差是一样的那么说句话糙理不糙的话就是脱裤子放屁多此一举说了数学家是不会做这么无聊的

上面为了帮助理解相关系数,我们从几何的角度去理解,因为很多的数学问题如果从逻辑上面不好把握的话我们可以从几何上找到突破口,我国著名数学家华罗庚曾经说过:‘’数无形时少直觉,形无数时难入微“,这句话说得相当的精辟,短短14个字就把数与形的关系说得清清楚楚说得你醍醐灌顶、豁然开朗,你不服都不行.确实从几何上面来理解数学更加的直观形象,但是上面我们仅仅是从图形出发来建立什么是多维随机变量的相关性的感性认知,两个随机变量什么时候正相关负相关如果仅仅只是从图形上面感性理解这也是片面的朦胧的不精确的,比如从上面的图形中我们能够感性的认识到如果随机变量取值总区域越偏平即椭圆形状越是扁其线性相关程度就越高,越是呈圆形那么其相关程度就越是低,如果取极限位置即两个随机变量呈现出一条直线那么他们不就是完全相关了吗?但是我们如何去衡量椭圆的扁平程度嘞?用一个什么样的表达式去衡量嘞?这是一个问题,所以我们如果想理性的认识什么是多维随机变量的相关性与不相关,还是得从更加微观的角度即数的角度去认知他,下面我们就从代数出发来认知协方差与标准化后的协方差即相关系数的具体意义事情的,连我这样的小子都不会做这样的事情何况高尚伟大的数学家.相关系数除了用来判断两随机变量的相关性以外还可以用来度量相关性.

那么度量相关性到底是如何实现的嘞?先来看一个数学上非常著名且无论是在几何学还是在分析学亦或是在代数学上都有应用的不等式,帅气且霸气的柯西—施瓦茨(Schwarz)不等式

对任意二维随机变量(X,Y),若X与Y的方差都存在,且记为\sigma^2_X=Var(X),\sigma^2_Y=Var(Y),则有

[Cov(X,Y)]^2 \leqslant \sigma^2_X\sigma^2_Y.

这个定理的证明是很简单,这不是重点,重点是大家有没有觉得这个不等式很熟悉?r如果我们将协方差看做是一个内积的话像不像高等代数中的内积公式(<X,Y>^2) \leqslant (<X,X><Y,Y>) ?,这简直就像极了爱情,这是不是巧合?我们是不是可以将概率论中的实值函数随机变量做成一个向量空间,然后在定义一个内积为协方差Corr(X,Y)=\dfrac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=\dfrac{Cov(X,Y)}{\sigma_X \sigma_Y},这样就做成了一个概率空间上面的欧式空间?有这个想法可以但是有待验证,下面就来验证随机变量是否能做成一个高等代数中的向量空间然后在验证是否定义了协方差这个内积之后可以做成一个欧式空间.

  1. 验证是否概率论中的随机变量做成的集合V能否做成实数域F上的一个向量空间

    \begin{array}{l}{\text{ 1) }}X+Y=Y+X\\{\text { 2) }(X+Y)+Z=X+(Y+Z)} \\ {\text { 3) } \forall X \in V, \text { 存在唯一的}{0 \in V使得X+0=X}} \\ {\text { 4) } \forall X \in V {X+0=X}} \\ {\text { 4) } \forall X \in V, \text { 存在唯一的 }}-X \in V,使得X+(-X)=0 \\ {\text { 5) } a(X+Y)=a X+a Y} \\ {\text { 6) }(a+b) X=a X+b X} \\ {\text { 7) } a(b X)=(a b) X} \\ {\text { 8) } 1 X=X}\end{array}

    以上即可证明随机变量可以做成一个向量空间

  2. 下面接着证明协方差是否能够定义为向量空间上的内积将随机变量做成的向量空间在作成一个欧式空间.

    1)对称性:

    \begin{aligned} \operatorname{cov}(X, Y)=& \operatorname{Cov}(Y, X) \\ \text { Proof: } \because & \operatorname{cov}(X, Y)=E[(X-E(X))(Y-E(Y))] \\ &=E(X Y)-E(X) E(Y) \\ &=\operatorname{Cov}(Y, X) \\ \therefore & \operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X) \end{aligned}

    2)线性性质:

    Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,ZA)

    Proof:由协方差的定义可得

    Cov(aX,Y)=E[(aX-E(aX))(Y-E(Y))]=aCov(X,Y)

    Cov(X+Y,Z)=(E(XZ)-E(X)E(Z))+(E(YZ)-E(Y)E(Z))=Cov(X,Z)+Cov(Y,Z).

    3)正则性:

    Cov(X,X)=Var(X) \geqslant 0

    故综上所述所有的随机变量可以做成一个欧式空间其内积为协方差.

    由向量的内积公式可得Corr(X,Y)=\dfrac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=\dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\cos\theta 其中\theta为向量X与Y的夹角.故-1 \leqslant \cos{\theta}=Corr(X,Y) \leqslant 1.然后可以证明|Corr(X,Y)|=1的充要条件是X与Y有相关关系Y=aX+b,其中a \neq 0.当Corr(X,Y)=0的时候X与Y不相关,上面感性的认识过|Cov(X,Y)|越大即相关系数的分子绝对值越大也即相关系数绝对值越大则两随机变量的相关程度就越高,故相关系数越是接近于一则两随机变量的相关程度也就越高,反之越是接近与零则其相关程度也就越低.

    其实相关系数还可以做另外一种理解:

    若即随机变量X,Y的数学期望为\mu_X,\mu_Y则其标准化的变量为X^*=\dfrac{X-\mu_X}{\sigma_X}与Y^*=\dfrac{Y-\mu_Y}{\sigma_Y}

    Cov(X^*,Y^*)=Covrr(X,Y) 即两随机变量的相关系数等于标准化后的随机变量的方差.

    通过将高等代数中的欧式空间引入到概率论中能够有助于我们理解相关系数,因此我们要具有知识的迁移能力这很重要,不能为了知识而知识,知识就是拿来运用的.

  • 协方差矩阵:

    记n维随机向量为X=(X_1,X_2,X_3,\cdots,X_n)^{\prime},若其每个分量的数学期望都存在,则:

    E(X)=(E(X_1),E(X_2),\cdots,E(X_n))^{\prime}为n维随机变量向量的数学期望向量简称为X的数学期望而称

    E[(X-E(X))(X-E(X))^{\prime}]=\begin{pmatrix} Var(X_1)&Cov(X_1,X_2)&\cdots&Cov(X_1,X_n)\\Cov(X_2,X_1)&Var(X_2)&\cdots&Cov(X_2,X_n)\\ \vdots&\vdots&&\vdots\\Cov(X_n,X_1)&Cov(X_n,X_2)&\cdots&Var(X_n)\end{pmatrix}

    为随机向量的协方差矩阵,此矩阵是一个对称非负定矩阵,主对角线上的元素为对应位置的方差,其他位置为对应随机变量的协方差,只要将协方差矩阵的算法输入到计算机内部我们就可以很清晰的看清楚n维随机向量任意两个随机变量间的相关关系.

1.6.6 条件分布与数学期望

1.6.6.1 离散型随机变量的条件分布

条件分布无疑就是在知道联合分布的情况下运用条件概率公式求之即可不做过多叙述.

1.6.6.2 连续型随机变量的条件分布

(1) 设二维离散型随机变量(X,Y)的联合概率密度p(x,y),边际密度函数为p_X(x),p_Y(y).

在离散随机变量场合,其条件概率的分布函数为P(X \leqslant x|Y = y).因为连续型随机变量取某个值的时候其概率为零,故在连续型场合不可以简单的使用条件概率公式,这会导致分母为零,因此既然不能求出某一点取值的概率,我们又在数学分析中学过极限的概念,因此我们可以将P(X \leqslant x|Y = y)看做\underset{h \rightarrow 0}\lim P(X \leqslant x| y \leqslant Y \leqslant y+h)时的值去代替P(X \leqslant x|Y = y),于是就可以得出如下的定理:

对一切使得p_Y(y) \gt 0的y,给定Y=y条件下X的条件分布函数和条件密度函数分别为

F(x|y)=\int^x_{-\infty}\dfrac{p(u,y)}{p_Y(y)}\mathrm{d}u

p(x|y)=\dfrac{p(x,y)}{p_Y(y)}.

1.6.6.3 连续场合的全概率公式和贝叶斯公式

由条件密度函数可得

p(x,y)=p_Y(y)p(x|y)

p(x,y)=p_X(x)p(y|x)

可得到边际密度函数

p_Y(y)=\int^{+\infty}_{-\infty}p_X(x)p(y|x)\mathrm{d}x

p_X(x)=\int^{+\infty}_{-\infty} p_Y(y)p(x|y)\mathrm{d}y

就得贝叶斯公式的密度函数形式为:

p(x|y)=\dfrac{p_X(x)p(y|x)}{\int^{+\infty}_{-\infty}p_X(x)p(y|x)}\mathrm{d}x

p(y|x)由对称性即可得到.

1.6.6.4 条件数学期望

条件分布的数学期望如果存在则称其为条件期望.条件期望的计算只要利用连续型场合和离散型场合的定义用条件概率代替非条件概率计算即可.

(X,Y)服从二维正态分布N(\mu_1,\mu_2,\sigma^2_1,\sigma^2_2,\rho) 由边际分布知X服从正态分布N(\mu_1,\sigma^2_1),Y服从正态分布N(\mu_2,\sigma^2_1) .我们可以求得其条件分布也服从正态分布N(\mu_1+\rho\dfrac{\sigma_1}{\sigma_2}(y-\mu_2),\sigma^2_1(1-\rho^2))

要了解条件数学期望的意义且看如下例子:

公安部在勘察犯罪现场获取犯罪分子信息的时候经常根据脚印的大小来判断其身高,一般认为脚印和足长可以(X,Y)可以视作二维正态分布在处理,即其条件分布服从正态分布N(\mu_1+\rho\dfrac{\sigma_1}{\sigma_2}(y-\mu_2),\sigma^2_1(1-\rho^2)) 由此可以得到:E(X|Y=y)=\mu_1+\rho\dfrac{\sigma_1}{\sigma_2}(y-\mu_2) ,里面除了脚印大小y为未知数以外其他的参数都可以看做是已知的,因此只要知道了犯罪嫌疑人的脚印大小就可以推断其身高.

上面已经知道了我们可以用条件期望来进行推断实际上这种推断只是一种估计,那么这种推断是否是可靠的嘞?可靠的依据又在哪里嘞?

条件均值说白了就是在已知Y=y的条件下去预测X的值,那么用条件均值预测有些什么好处嘞?下面进行说明.

我们已经知道条件均值是关于未知数y的一个函数,我们不妨假定还有其他的关于y的函数g(y)可以对x进行预测,判断这个预测值好坏的依据是误差要尽可能的小即min|x-g(y)| ,但是|x-g(y)|是一个随机变量取值并不固定,因此就要求其均值

E|(x-g(y))|=min为了去掉绝对值方便运算将其替换成E(x-g(y))^2=min.

我们可以证明当g(y)=E(X|Y=y) 的时候E(x-g(y))^2=min成立,因此用条件均值进行预测的时候其均方误差将达到最小,这就是用条件均值进行合理预测的理论依据.我们也将E(X|Y=y)=\mu_1+\rho\dfrac{\sigma_1}{\sigma_2}(y-\mu_2)称之为是第一类回归.

但是当某些分布的密度函数未知或者是函数E(X|Y=y)过分复杂的时候我们也可以降低要求,即不寻求最优预测,只需求满意预测即可,当不使用条件均值时我们通常使用一个简单的函数即线性函数来替代他进行预测,不妨设L(y)=ay+bx的线性预测,则我们要求

E[x-(ay+b)]=min

为了求出参数a和b,可以进行如下处理将上式分别对a和b求偏导数然后求出稳定点a,b即可得到参数a,b的计算公式(很显然必然有一个a,b的取值满足上式).

a=\rho \dfrac{\sigma_1}{\sigma_2},b=E(x)-\rho\dfrac{\sigma_1}{\sigma_2}E(y)

由此得到L(y)=E(x)+\rho\dfrac{\sigma_1}{\sigma_2}(y-E(y)) 我们将其称之为第二类回归,由此可知对正态分布而言其第一类回归就是第二类回归,即在理论上来讲用条件均值来预测犯罪嫌疑人的身高是合理最优的预测方案.

1.6.6.5 特征函数

随机变量的分布函数可以全面的描述随机变量的统计规律,但是分布函数和密度函数使用起来并不方便,比如知两随机变量\xi_1,\xi_2他们两个相互独立其密度函数分别为p_1,p_2\xi=\xi_1+\xi_2的密度函数p=p_1*p_2即为p_1与p_2的卷积,但是当我们要研究\xi=\overset{n}{\underset{i=1}\sum \xi_i}即n个随机变量和的分布的时候我们就要求n-1次卷积,我的妈耶,这个计算量是相当的大的,即便是如今的计算机也是吃不消的,因此我们必须需求其他的工具来解决这个问题,在数学分析中我们知道傅里叶(Fourier)变换能够将卷积运算转化为乘法运算即F(\xi)=F(\xi_1)\bullet F(\xi_2),因此我们密度函数进行傅里叶变换将卷积运算转化为乘法运算然后在通过傅里叶逆变换即可以求得密度函数,乘法运算显然是要比卷积运算方便的.

p(x)是随机变量\xi的密度函数,则p(x)的傅里叶变换是\varphi(t)=\int^{+\infty}_{-\infty}e^{itx}p(x)\mathrm{d}x ,i是虚数也即\sqrt {-1}.

\xi 是任一随机变量,则称

\varphi(t)=E(e^{it\xi}),-\infty \lt t \lt +\infty\xi的特征函数.

显然任何一个随机变量其特征函数都是存在的因为|e^{it\xi} \leqslant 1| .

1) 定理一:

\xi_1,\xi_2的特征函数分别为\varphi_1(t),\varphi_2(t)\xi=\xi_1+\xi_2的特征函数为

\varphi (t)=\varphi_1(t)\bullet \varphi_2(t) ,n维情形推广之.

2) 定理二:

设随机变量\xi有N阶矩存在,则\xi的特征函数\varphi (t)可微N次且对K\leqslant N 有:

\varphi^{K}(0)=i^{K}E(\xi^{K}) ,这个公式可以方便计算随机变量的K阶矩只要对其特征函数求K阶导数即可

从上面我们知道任何一个随机变量分布函数唯一的对应着一个特征函数,实际上也可以证明任何一个特征函数也唯一地确定了他的分布函数,即特征函数与分布函数是一个双射.由此我们就可以利用傅里叶逆变换根据随机变量的特征函数来确定其密度函数与分布函数.

傅里叶变换:\varphi(t)=\int^{+\infty}_{-\infty}e^{itx}p(x)\mathrm{d}x.

傅里叶逆变换:p(x)=\dfrac{1}{2\pi}\int^{+\infty}_{-\infty}e^{-itx}\varphi (t)\mathrm{d}t

由特征函数我们可以看到,数学各个分支看起来似乎相互独立,其实是各分支相互渗透的,概率论的产生离不开数学分析,高等代数和复变函数的发展,而概率论的发展也反过来推动了其他数学分支的发展,知识与知识之间要有迁移能力,要有整体上的把握,这样才能对数学有全面的了解.

1.6.7 大数定律与中心极限定律

前面说过对于随机试验,随着随机试验的次数逐渐增多,频率将会逐渐稳定到概率,平均值将会逐渐稳定到均值, 这个稳定只是一个很直觉的说法,那么如和让这种直觉转化成数学意义嘞?这就是下面要解决的问题.

伯努利大数定律:

\mu_n是n重伯努利试验中A试验发生的次数,又A在每次试验中出现的概率为0\lt p \lt 1 .则对任意的\varepsilon \gt 0 ,有

\underset{n\rightarrow +\infty}\lim P(|\dfrac{\mu_n}{n}-p| \lt \varepsilon)=1

上式中的\dfrac{\mu_n}{n}就是n次随机试验的频率,也就是说随着n次数的增加其频率趋向于概率的概率趋向于一,这个是与数学分析中的极限概念是不同,极限是存在\varepsilon \gt 0 存在N \gt 0,当n \gt N,的时候任意的\dfrac{ \mu_n}{n}都满足|\dfrac{\mu_n}{n} - p| \lt \varepsilon

而伯努利大数定律是强调的是概率P(|\dfrac{\mu_n}{n}-p| \lt \varepsilon) ,当n趋于无穷的时候其概率趋向于一,也就是说|\dfrac{\mu_n}{n}-p| \lt \varepsilon,事件发生的可能性会越来越大,但也有可能|\dfrac{\mu_n}{n}-p| \gt \varepsilon 的事件会发生,因此我们就将频率依照概率收敛于概率.

对于伯努利大数定律实际上我们是讨论了形如\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{n}的随机变量,当n\rightarrow +\infty时的统计规律,其中\xi_i是独立的服从0-1分布的随机变量,因此我们将伯努利大数定律推广到更为一般的情形

大数定律:

若诸\xi_i,i=1,2,3\cdots,n是随机变量序列,如果存在常数序列a_n,n=1,2,\cdots,n使得对任意的\varepsilon \gt 0 有:

\underset{n \rightarrow +\infty}\lim P(|\dfrac{\overset{n}{\underset{i=1}\sum}\xi_i}{n}-a_n|\lt \varepsilon)=1 成立,则称随机变量序列\xi_i服从大数定律,由此可知,伯努利大数定律只是上叙大数定律的一个特例.

切比雪夫大数定律:

\xi_1,\xi_2,\cdots是一些两两互不相关的随机变量,又设他们的方差有界,即存在常数C \gt 0 使得诸D(\xi_i) \leqslant C 则对任意的\varepsilon \gt 0 有:

\underset{n \rightarrow +\infty} \lim P(|\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{n}|\lt \varepsilon)=1 此定理可有切比雪夫不等式得证明

由此可见伯努利大数定律是切比雪夫大数定律的特例,切比雪夫大数定律是大数定律的特例

马尔可夫大数定律:

在证明切比雪夫大数定律的过程中其实我们可以发现只要\dfrac{1}{n^2}D(\overset{n}{\underset{i=1}\sum}\xi_i)\rightarrow 0则{\xi_i}服从大数定律,即对任意的\varepsilon \gt 0 有:

\underset{n \rightarrow +\infty} \lim P(|\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{n}|\lt \varepsilon)=1

切比雪夫大数定律是马尔可夫大数定律的特例,马尔可夫大数定律的重要性在与对于随机变量序列已经没有了独立性、同分布性、不相关性的假定,在以上大数定律的证明过程中都是以切比雪夫不等式为前提的因此都要要求随机变量具有方差,但是进一步的研究表明,方差的存在也不是必要的,下面介绍一个与方差无关的大数定律,辛钦大数定律

辛钦大数定律:

设诸\xi_i是一系列独立同分布的随机变量且数学期望存在:

E(\xi_i)=a,i=1,2,\cdots

则对任意的\varepsilon \gt 0,有\underset{n \rightarrow +\infty}\lim P(|\dfrac{\overset{n}{\underset{i=1}\sum}\xi_i}{n}-a|\lt \varepsilon)=1 成立

在上面的所有大数定律中伯努利大数定律是证明了频率依照概率稳定与概率,而辛钦大数定律是证明了平均值依照概率会稳定与数学期望,现有伯努利大数定律而后将其推广给出大数定律的一般形式,而后将伯努利大数定律的条件一步步放宽,伯努利大数定律数切比雪夫大数定律的特例子,切比雪夫大数定律是马尔可夫大数定律的特例,无论是切比雪夫大数定理还是伯努利大数定律亦或是马尔可夫大数定律他们三者的证明都是与切比雪夫不等式有关,因此要求其随机变量序列具有方差,但是辛钦大数定律是与方差无关的,他至于随机变量序列是否独立以及各自的数学期望是否存在有关.

随机变量序列的两种收敛性:

在大数定律中我们从频率的稳定性出发,引入了\eta_n=\dfrac{1}{n} \overset{n}{\underset{i=1}\sum} \xi_i \overset{P}\rightarrow a (n \rightarrow +\infty)

即随机变量序列{\eta_n}依概率收敛于常数a的概念,很自然的我们也把他进行推广,即不把它收敛于一个常数而是收敛于一个随机变量,于是引入如下定义:

设有一列随机变量\eta,\eta_1,\eta_2,\cdots 如果对任意的\varepsilon \gt 0,有

\underset{n \rightarrow +\infty} \lim P(|\eta_n-\eta| \lt \varepsilon)=1

则称随机变量序列{\eta_n}依概率收敛于\eta 记作 \eta_n \overset{P}\rightarrow \eta

大数定律只是上叙依概率收敛的一种情况特殊情况

如果我们已知\eta_n \overset{P}\rightarrow \eta 那么他们的分布函数之间会有什么样的关系嘞?

定义:设F(x),F_n(x),n=1,2,\cdots 是一系列分布函数,如果对F(X)的每个连续点都有

\underset{n \rightarrow +\infty} \lim F_n(x)=F(x) 则称分布函数列{F_n(x)}弱收敛于F(x)

定理1:

若随机变量序列\xi_n依概率收敛于随机变量\xi ,则随机变量序列的分布函数列F_n(x) 弱收敛于\xi的分布函数 F(x)

一般来说此定理反过来不成立

定理2:

随机变量序列\eta_n \overset{P}\rightarrow \eta \equiv c 其中c为常数的充要条件为

F_n(x) \overset{W}\rightarrow F(x)

F(x)为退化分布是\eta \equiv c的分布函数

此定理说明随机变量和的分布弱收敛于退化分布这就是大数定律

定理3:

分布函数列{F_n(x)}弱收敛于分布函数F(x)的充要条件书相应的特征函数列{\varphi_n(t)} 收敛于F(x)的特征函数\varphi(t) .

前面我们了解到特征函数有便于减少求独立随机变量和的分布的计算量,而且可以很方便的求出和的分布的一些特征数,有了这个定理之后我们将极大的拓宽特征函数的使用范围,当求独立分布和的极限问题的时候这个工具将发挥出巨大的威能

中心极限定理:

之前曾经提到过高斯在研究误差理论的时候曾经利用了正态分布,那么大家有没有想过为什么会选着正态分布来研究误差嘞?那么现在我们来研究一下误差到底是一个什么样的随机变量,以我国的东风导弹为例,设靶心为原点,则导弹的弹着点为(\xi,\eta) ,现在我们已经知道\xi,\eta都服从正态分布,\xi,\eta 可以看做是导弹射击的横向误差要和纵向误差,而造成产生误差的原因是有无数个微小的因数积累总和而成的,比如空气的阻力,空气的湿度,炮弹的火药差异,发射站的具体情况等等一系列原因造成的,我们不妨假设这一系列的因素造成的横向误差和为误差为\underset{i}\sum \xi_i,即\xi=\underset{i}\sum \xi_i ,我们暂且先把这一系列误差随机变量看做是独立同分布的,现在我们来研究随机变量和\overset{n}{\underset{i=1}\sum}\xi_i的分布,数学家们发现,\overset{n}{\underset{i=1}\sum}\xi_in\rightarrow +\infty的时候可能趋向于无穷这时候其方差越来越大,均值也越来越大,造成分布极其的不稳定,而且求其分布函数越来越困难,此时我们研究这种情形就没有什么现实意义,我们只讨论取有限值时候的随机变量,伯努利大数定律告诉我们:\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{n} \overset{P}{\rightarrow} 0,n \rightarrow +\infty

这是因为先进行了随机变量和的去中心化让后比上一个增长因子,这样我们才能使得使得其分布函数序列弱收敛于一个分布函数,然后我们用近似分布区代替和的分布,使得其特征函数序列也收敛于一个特征函数,这样我们就能够运用特征函数去求出随机变量和的分布问题:

回顾一下我们之前的标准化我们不妨将随机变量和中心化之后再比上其标准差进行标准化

S_n=\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{\sqrt{D(\overset{n}{\underset{i=1}\sum}\xi_i)}} 这样就能够使得不论n为多少E(S_n)=0,D(S_n)=1 ,使得S_n的分布能够大致稳定下来即依照概率能够使得S_nn \rightarrow +\infty收敛于某一个S,其分布函数也弱收敛于一个分布函数.

\xi_i是服从参数为p的两点分布的时候,则有下述历史上著名的

棣莫弗(De Moivre)—拉普拉斯(Laplace)定理:​

在n重伯努利试验中,事件A在每次试验中出现的概率为(0 \lt p \lt 1) ,\mu_n为n此试验中事件A出现的次数,则

\underset{n \rightarrow +\infty}\lim P(\dfrac{\mu_n -np}{\sqrt{npq}} \leqslant x) = \dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}\mathrm{d}t

此定理的说明‘’二项分布收敛于正态分布‘’,当n很大的时候可以用来近似计算二项分布的取值

而且此定理还可以用来计算伯努利大数定律事件发生的概率,而伯努利大数定律只是说明频率收敛于概率并没有说事件发生的概率是多少,由此可知此定理比伯努利大数定律更强.

此定理的发明由棣莫弗首先研究,而后由拉普拉斯推广,这个定理的提出就是正态分布出现的雏形,但遗憾的是两位数学家并没有把正态分布当成一回事情,只是把它用来近似计算二项分布,以前我们提到过二项分布收敛于泊松分布但是这里又提二项分布收敛于正态分布这是不是冲突嘞?这其实不冲突,二则收敛的条件不同罢了,收敛于泊松分布是要求 np_n \rightarrow \lambda,而正态分布则是要求 np \rightarrow +\infty ,经过其他数学家的推广,然后高斯才用正态分布来计算误差,而后拉普拉斯又整合中心极限定理发现随机误差正是满足中心极限定理的.

将上面的定理推广之后就能够得到更加一般的定理即林德贝格—勒维(Lindeberg-Levy)定理:

若诸\xi_i,i=1,2,\cdots是一系列独立同分布的随机变量,且E(\xi_i)=a,D(\xi_i)=\sigma^2 \gt 0

则有\underset{n \rightarrow +\infty}\lim S_n=\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{\sqrt{D(\overset{n}{\underset{i=1}\sum}\xi_i)}} =\dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}\mathrm{d}t

上面的定理我们是在独立同分布的情形下提出的,但在现实环境中众多的微小元素虽然是独立的但是却未必是同分布的,因此我们要考虑独立但是未必同分布的的随机变量序列的分布问题,为解决这一问题就有了林德贝格定理:

设随机变量序列{\xi_i}满足林德贝格条件(这个定理主要是保证S_n能够稳定下来不趋向于无穷)则当n\rightarrow +\infty是对任意的x,有

\underset{n \rightarrow +\infty}\lim S_n=\dfrac{\underset{i=1}{\overset{n}\sum}\xi_i-\overset{n}{\underset{i=1}\sum}E(\xi_i)}{\sqrt{D(\overset{n}{\underset{i=1}\sum}\xi_i)}} =\dfrac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-\frac{t^2}{2}}\mathrm{d}t

故此定理证明了由大量的微小且独立的随机因素并且积累而形成的变量,将会是一个正态随机变量,这样就能够理解为什么误差理论可以用正态分布来描述了.说白了中心极限定理就是用来描叙正态分何以成为正态分布,什么样的随机变量服从正态分布的一个定理.

到现在为止概率论的全部内容就已结束,概率论是研究随机事件统计规律的学科,利用随机事件的分布这一强有力的工具可以了解随机事件的各种规律,大数定律与中心极限定律是用来研究随机事件和的分布的极限形式的。但是到现在为止我们还有一个问题没有得到解决,就是如果我们知道某个随机变量是服从某一个分布的比如\xi \sim N(\mu,\sigma^2) 但是我们如何去确定其分布的参数\mu,\sigma^2嘞?这是一个问题,这个问题就是接下来的属于数理统计的范畴

相关文章

网友评论

      本文标题:2019-10-23

      本文链接:https://www.haomeiwen.com/subject/jjahvctx.html