大偏差原理：文献综述

作者: jeffbourbaki | 来源:发表于2019-03-26 22:27 被阅读0次

大偏差技术旨在对稀有事件的概率做指数型的渐进估计。大偏差原理的框架最早由Abel奖得主Varadhan于1966年引入，我们如今沿用的记号和定义即是Varadhan当初所提出的。但大偏差技术的雏形要更早，可以追溯到Cramer关于独立同分布随机变量列的样本均值尾概率估计的工作。

继大偏差的框架被引入之后，上世纪七八十年代，Donsker-Varadhan提出了关于马氏过程经验测度的大偏差，Freidlin-Wentzell提出了含随机扰动系统的轨道大偏差。这两大辉煌成就，让大偏差原理迅速成为概率论的主流分支之一。

如今常见的大偏差原理有3类：
level 1：随机变量列的大偏差（Cramer’s Theorem，Gartner-Ellis' Theorem）
level 2：马氏过程经验测度的大偏差（Sanov's Theorem）
level 3：带扰动系统的轨道大偏差（Schilder's Theorem）

大偏差技术最初由Harald Cramer于1944年提出，Cramer利用随机变量对数矩母函数的Fenchel-Legendre变换，给出了独立同分布情形下样本均值小于某个常数c（c严格小于总体均值）的概率的指数型控制。

具体而言，Cramer给出了对样本均值尾概率的指数型控制：
$\textbf{P}(\overline{X}=a)\leq \exp(-nI(a)),a\neq EX_1$
其中 $I(a)$ 被称为速率函数，它是对数矩母函数 $f(t)\triangleq \ln E\exp(tX)$ 的Fenchel-Legendre对合，即 $I(a)=f^{*}(a)\triangleq \sup_{t} (ta-f(t))$ 。
由于对数矩母函数是凸函数，且Fenchel-Legendre保凸，故 $I(a)$ 凸。

Cramer原理的证明十分简单，只需应用Chebyshev不等式，取辅助函数为指数函数 $\exp(tX)$ ,再在右侧对t取上确界即可。

列举几个常用分布的对数矩母函数和速率函数：
1）两点分布 $B(1,p)$
$f(t)=\ln(1-p+pe^{t})$
$I(a)=a\ln(\frac{a}{p})+(1-a)\ln(\frac{1-a}{1-p}),a\in [0,1]$
2）泊松分布 $Possion(\lambda)$
$f(t)=\lambda(e^{t}-1)$
$I(a)=a\ln(\frac{a}{\lambda})+\lambda-a,a\in [0,+\infty )$
3）正态分布 $N(0,\sigma^{2})$
$f(t)=\frac{t^{2} \sigma^{2}}{2}$
$I(a)=\frac{a^{2}}{2 \sigma^{2}}$
4）指数分布 $Exp(\lambda)$
$f(t)=\ln(\frac{\lambda}{\lambda-t}),t\in (-\infty,\lambda]$
$I(a)=\lambda a-1-\ln(\lambda a),a\in[0,+\infty)$

Freidlin-Wentzell关于轨道大偏差最早的工作是1979年出版的《Random Perturbations of Dynamical Systems》。在文中他们研究了含有小随机扰动的动力系统，对其样本轨道的收敛速率做了刻画。具体来说，随着噪声 $\epsilon$ 的减小，样本轨道收敛于确定性轨道的速率关于 $\epsilon$ 是指数型的。

大偏差的用途广泛，业已成为应用概率中一个极活跃的分支。它能估计假设检验中犯错误的渐进概率，估计随机系统的逸出概率和相对于确定性轨道有偏离的概率。大偏差对稀有事件概率的精确刻画，使得我们能够更精细地更定量地描述渐进行为，从而提高统计和计算方法的精度及效率。大偏差技术还被用于金融风险管理。对一个公司而言，可能导致破产的稀有事件比大概率收益多少要更加重要。

本文拟使用大偏差原理结合Girsanov测度变换，改进路径依赖期权定价的Monte Carlo方法。我们由此将发现，在统计模拟中，一个关于稀有事件概率的先验估计对于计算效率的重要性。

下面我们就几个具体情形简述大偏差的应用：
1）
无论是随机变量的取值集合，还是经验测度的取值集合，抑或是 $[0,T]$ 区间上样本轨道的集合，样本落在这些集合中便可被视为一个事件。当该集合不含最终收敛到的点、测度或轨道时， $\{样本落入该集合\}$ 便是一个稀有事件，拥有指数型的渐进概率。

首先介绍Varadhan引入的大偏差框架，3个level的大偏差在这种描述下拥有统一的定义：

大偏差原理是概率测度族所满足的一种性质。具体来说，测度族 $\{P_{\epsilon}\}$ 满足以 $I(a)$ 为速率函数的大偏差原理是指：
1） $I(a)\in[0,+\infty]$
2） $I(a)下半连续\Leftrightarrow\forall l<\infty ，水平集\{a|I(a)\leq l\}是闭集$
2'） $I(a)下紧\Leftrightarrow\forall l<\infty，水平集\{a|I(a)\leq l\}是紧集$
3） $\forall 闭集C，\limsup_{\epsilon\downarrow 0}\epsilon\ln P_{\epsilon}(C)\leq-\inf_{a\in C}I(a)$
4） $\forall 开集G，\liminf_{\epsilon\downarrow 0}\epsilon\ln P_{\epsilon}(G)\geq-\inf_{a\in G}I(a)$

(1)(2)(2')是对速率函数的要求，(3)(4)分别为大偏差的上、下界估计。若速率函数 $I(a)$ 满足(2')，则称其为好速率函数（good rate function）。对于一个好速率函数 $I(a)$ ，存在 $a$ ，使得 $I(a)=0$ 。

在随机变量列或离散状态马氏链的情形，(3)(4)有更常见的写法：
3’） $\forall 闭集C，\limsup_{n\to \infty}\frac{1}{n}\ln P_{n}(C)\leq-\inf_{a\in C}I(a)$
4’） $\forall 开集G，\liminf_{n\to \infty}\frac{1}{n}\ln P_{n}(G)\geq-\inf_{a\in G}I(a)$

由于(3)和(4)，我们可以对 $\mathbb{R^{d}}$ 上的 $Borel$ 集 $B$ 的渐进概率做出上下界估计:
$-\inf_{a\in B^{\circ}}I(a)\leq \liminf_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)\leq \limsup_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)\leq-\inf_{a\in \overline{B} }I(a)$
当 $\inf_{a\in B^{\circ}}I(a)=\inf_{a\in \overline{B} }I(a)$ 时， $\lim_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)=-\inf_{a\in B}I(a)$ ，称 $B$ 为 $I$ 连续集，此时事件 $B$ 的渐进概率可以由LDP得到精确刻画。

独立同分布情形下，经验测度收敛于先验测度。我们只考虑离散状态随机变量。设 $Y_1,Y_2,...Y_n,...$ 是一列离散独立同分布的随机变量，状态空间为 $\Sigma$ 。定义 $X_i\triangleq (I_{a_1}(Y_i),I_{a_2}(Y_i),...,I_{a_{|\Sigma|}}(Y_i))$ ，那么 $X_1,X_2,...,X_n,...$ 也是一列独立同分布随机向量。有 $\mathbb{R^{|\Sigma|}}$ 上的Cramer原理，其对数矩母函数： $f(\overrightarrow{\lambda} )=\ln E(e^{\langle \lambda,X_1\rangle})=\ln \Sigma_{i=1}^{|\Sigma|}e^{\lambda_i}P(a_i)$
计算得其速率函数： $I(a)=D(a||P)$ ， $D(\cdot ||P)$ 称为相对熵，又叫Kullback-Liebler散度，它衡量了两个分布之间的差异，在这里衡量了经验测度 $a$ 于先验测度 $P$ 之间的差异。两个测度差异越小，相对熵也越小。 $D(a||P)\geq 0$ ，当且仅当 $a=P$ 时取等。 $D(a||P)$ 是关于 $a$ 的凸函数。