美文网首页
2018-04-01

2018-04-01

作者: 薛东弗斯 | 来源:发表于2018-04-01 09:01 被阅读0次

大偏差技术是什么?

Mather King

Mather King

数学 话题的优秀回答者

预定的内容都写完了,如果以后再有什么心得,也会继续更新。不过近期是没时间继续学大偏差了。

主要的参考文献是 Amir Dembo, Ofer Zeitouni 的 Large Deviations Techniques and Applications和Richard Ellis 的 Entropy, Large Deviations, and Statistical Mechanics。两本书都有世界图书出版公司的影印版,不过共同特点是风格比较纯数,上手略困难。

1 大偏差的引入

考虑一个简单的游戏:掷一枚均匀的硬币,正面朝上乙给甲一块钱,反面朝上甲给乙一块钱。设n次之后,甲的收益为S_n. 甲每次的收益期望为0,即 \mathbb{E}(S_n/n)=0.

由弱大数律(Law of large numbers)可知,对于0的任何一个小邻域(-\epsilon,+\epsilon),当n越来越大,每次收益期望越有可能落入这个区间,\lim_{n\to\infty}\mathbb{P}(|S_n/n|<\epsilon)= 1.

现在我们反过来考虑上述事件的补,即每次收益期望远离0. 不妨考虑极端事件:S_n/n=1,甲每次都能赢。显然这个事件的概率是2^{-n},以指数速度下降。数学形式是\frac{1}{n}\log\mathbb{P}(S_n/n=1)=-\log2.

由中心极限定理(Central limit theorem)可知,S_n/\sqrt{n}依分布收敛于一个正态分布。粗略来说S_n大概是\sqrt{n}量级。而大偏差理论(Large deviations theory)研究的是S_n处在n量级的概率(大偏差)如何以指数速度下降。

2 大偏差函数

对于上面的掷硬币模型,定义大偏差函数

I(z)=\frac{1+z}{2}\log(1+z)+\frac{1-z}{2}\log(1-z),如果-1\le z\le1.如果|z|>1,规定I(z)=\infty. 规定0\log0=0.

这个函数长这样

在\pm 1处取到最大值\log 2,在0处取到最小值0.

这个函数描述了事件S_n/n\approx z在n增大时的指数衰减速度,比如-\frac{1}{n}\log\mathbb{P}(S_n/n\approx1)\to \log2=I(1)

-\frac{1}{n}\log\mathbb{P}(S_n/n\approx0)\to 0=I(0)

可以看出,|z|越大,S_n/n\approx z的概率下降得越快。考虑S_n/n落在区间[0.3,0.7]的概率。如果你学过一点Laplace积分的近似理论的话,就会知道S_n/n落在0.7附近的概率,相比于落在0.3附近的概率,是下降得指数快的,所以对于落在区间[0.3,0.7]的概率来说,0.7附近的贡献越来越小,最终整个区间的概率可以被0.3附近概率代替。所以-\frac{1}{n}\log\mathbb{P}(0.3\le S_n/n\le0.7)\to I(0.3)

实际上,S_n/n处于某个Borel集(比如开集、闭集)的概率由这个集合上大偏差函数I的最小值(下确界)确定。

3 (好的)大偏差理论的严格表述

由于这是个科普文章,我只表述比较简洁的(好的)大偏差原理。

考虑\mathbb{R}或者\mathbb{R}^n上的一列概率分布\mu_n,一个(好的)大偏差函数I(z),以及\mathbb{R}或者\mathbb{R}^n中的任意Borel集\Gamma(可以只考虑开集或闭集),有

\lim_{n\to\infty}\frac{1}{n}\log\mu_n(\Gamma)=-\inf_{z\in\Gamma}I(z)

则称概率分布序列\{\mu_n\}满足关于大偏差函数I(z)的大偏差律。(狭义的)好的大偏差函数应当连续非负,只在一个点(大数律所指的那个点)取到极小值0. 一般的(不好的)大偏差函数不连续,会导致上面的极限不存在,但上下极限存在,其上下界是上式的右端的\Gamma被\Gamma的内部和闭包替换。

对于上面的掷硬币模型,\mu_n是S_n/n在[-1,1]上的分布,\Gamma可以取区间[0.3,0.7]. 那么\mu_n(\Gamma)就是

\mathbb{P}(0.3\le S_n/n\le0.7)。

所以-\frac{1}{n}\log\mathbb{P}(0.3\le S_n/n\le0.7)\to \inf_{z\in [0.3,0.7]} I(z)=I(0.3)

对于独立同分布( i.i.d.),在\mathbb{R}或者\mathbb{R}^n中取值,取值可能有限的序列,S_n/n都满足大偏差律。证明就是简单地做一下组合数的估计。

以下就不打算以科普为目的了,主要是读书笔记和个人的想法。

4 大偏差与大数律和中心极限定理的关系

当上面的集合\Gamma不包含I(z)的极小值点的时候,落在其中的概率以指数速度下降趋于0,那么其补集的概率趋于1. 这正是弱大数律。由于事件R_N=\{\sup_{n<N}S_n/n>\mu+\epsilon\} (\mu是期望,\epsilon是任意正数)的概率随N指数下降,所以所有R_N的和有限。由第一Borel-Cantelli lemma (Borel),上述事件无穷次发生(亦即强大数律不成立)的概率为零。这样就证明了强大数律。

以下假设I(z)的零点是0. 当大偏差函数I(z)二阶连续可导的时候,在其零点附近做泰勒展开到二阶项,I(z)\approx I''(0)z^2/2. 所以S_n/n落在z附近的概率大概是ce^{-nI''(0)z^2/2}. 而S_n/\sqrt{n}落在z附近的概率就是ce^{-I''(0)z^2/2}. 这就是中心极限定理。

反过来,如果序列满足中心极限定理,把上一段的论述反过来,就知道S_n/n以指数速度下降,即大偏差原理。

注意这两段只是个形象的说明,不是严格证明。

5 不同Level的大偏差原理

考虑一列随机变量,取值空间是\mathbb{R}或者\mathbb{R}^n,但只能取有限个值(比如骰子的六个面123456)。

Level 1的大偏差说的是S_n/n属于某个(不包含期望那个点的)集合的概率指数下降,我们之前一直在讲这种大偏差。

Level 2的大偏差是说我们进一步考虑n次之后各种可能的取值发生的频率。比如掷了一百次骰子,六个面的频率分别是0.20,0.14,0.11,0.22,0.16,0.17. 这是『骰子的六个面』这个空间上的一个概率测度(经验测度 empirical measure)。我们知道这个空间上有个不变测度(各面都是1/6),由强大数律,上述经验测度会收敛于不变测度。这个空间上的所有概率测度是一个度量空间(距离由全变差距离定义)。Level 2的大偏差就是说经验测度属于某个不包含不变测度的集合的概率以指数速度下降。我们会在所有概率测度的空间上定义出大偏差函数。

Level 3 的大偏差进一步考虑每条轨道的具体性质。(Level 2 只考虑轨道的累积性质,对前有限项交换顺序不影响结果。但Level 3 有影响。)对于一条轨道\omega,取其前n项,然后无限重复,补成一条周期序列X(n,\omega)=(\cdots X_1(\omega),X_2(\omega),\cdots ,X_n(\omega),X_1(\omega),X_2(\omega),\cdots ,X_n(\omega),\cdots)。这叫做经验过程(empirical process). 经验过程对每个n和\omega有一个对应的(在轨道空间上的)测度

R_n(\omega,\cdot)=\frac{1}{n}\sum_{k=0}^{n-1}\delta_{T^k X(n,\omega)}(\cdot) 这个测度是严平稳的。

比如一条轨道\omega_0的1,2,3项是a,b,c,经验过程X(3,\omega_0)=(...abcabcabc...). 考虑一个有限柱集(finite cylinder set)  A= {\omega:X_1(\omega)=a,X_2(\omega)=b},那么对应的测度就是R_3(\omega_0, A)=

\frac{1}{3}\sum_{k=0}^{2}\delta_{T^k X(3,\omega_0)}(A)=\frac{1}{3}.

现在考虑N个有限柱集\Sigma_k,以及轨道空间的平稳分布P_{\rho}. (\rho是状态空间的一个概率分布,P_{\rho}是\rho对应的乘积测度)每一条轨道\omega对应了一个测度R_n(\omega,\cdot),而P_{\rho}是轨道的测度,所以也是所有(对固定的n)R_n的测度,记作Q_n^{(3)}。

考虑一个不包含P_{\rho}的轨道空间的严平稳测度的集合,比如B_3=\{P: \max |P(\Sigma_k)-P_{\rho}(\Sigma_k)|\ge\epsilon\}。这个集合里的Q_n^{(3)}测度是随n指数下降的。

以上称作Level 3 大偏差。

Level 3 大偏差我理解得不太深刻,暂时只能写成这样了。

6 大偏差原理扩展到非独立同分布序列

对于不可约马氏链,上述Level 1和Level 2的大偏差都成立。Level 1的大偏差是对状态空间上的任意函数做的。

相关文章

网友评论

      本文标题:2018-04-01

      本文链接:https://www.haomeiwen.com/subject/fzrocftx.html