美文网首页
大偏差原理:文献综述

大偏差原理:文献综述

作者: jeffbourbaki | 来源:发表于2019-03-26 22:27 被阅读0次

    大偏差技术旨在对稀有事件的概率做指数型的渐进估计。大偏差原理的框架最早由Abel奖得主Varadhan于1966年引入,我们如今沿用的记号和定义即是Varadhan当初所提出的。但大偏差技术的雏形要更早,可以追溯到Cramer关于独立同分布随机变量列的样本均值尾概率估计的工作。

    继大偏差的框架被引入之后,上世纪七八十年代,Donsker-Varadhan提出了关于马氏过程经验测度的大偏差,Freidlin-Wentzell提出了含随机扰动系统的轨道大偏差。这两大辉煌成就,让大偏差原理迅速成为概率论的主流分支之一。

    如今常见的大偏差原理有3类:
    level 1:随机变量列的大偏差(Cramer’s Theorem,Gartner-Ellis' Theorem
    level 2:马氏过程经验测度的大偏差(Sanov's Theorem
    level 3:带扰动系统的轨道大偏差(Schilder's Theorem

    大偏差技术最初由Harald Cramer于1944年提出,Cramer利用随机变量对数矩母函数的Fenchel-Legendre变换,给出了独立同分布情形下样本均值小于某个常数c(c严格小于总体均值)的概率的指数型控制。

    具体而言,Cramer给出了对样本均值尾概率的指数型控制:
    \textbf{P}(\overline{X}=a)\leq \exp(-nI(a)),a\neq EX_1
    其中I(a)被称为速率函数,它是对数矩母函数f(t)\triangleq \ln E\exp(tX)Fenchel-Legendre对合,即I(a)=f^{*}(a)\triangleq \sup_{t} (ta-f(t))
    由于对数矩母函数是凸函数,且Fenchel-Legendre保凸,故I(a)凸。

    Cramer原理的证明十分简单,只需应用Chebyshev不等式,取辅助函数为指数函数\exp(tX),再在右侧对t取上确界即可。

    列举几个常用分布的对数矩母函数和速率函数:
    1)两点分布B(1,p)
    f(t)=\ln(1-p+pe^{t})
    I(a)=a\ln(\frac{a}{p})+(1-a)\ln(\frac{1-a}{1-p}),a\in [0,1]
    2)泊松分布Possion(\lambda)
    f(t)=\lambda(e^{t}-1)
    I(a)=a\ln(\frac{a}{\lambda})+\lambda-a,a\in [0,+\infty )
    3)正态分布N(0,\sigma^{2})
    f(t)=\frac{t^{2} \sigma^{2}}{2}
    I(a)=\frac{a^{2}}{2 \sigma^{2}}
    4)指数分布Exp(\lambda)
    f(t)=\ln(\frac{\lambda}{\lambda-t}),t\in (-\infty,\lambda]
    I(a)=\lambda a-1-\ln(\lambda a),a\in[0,+\infty)

    Freidlin-Wentzell关于轨道大偏差最早的工作是1979年出版的《Random Perturbations of Dynamical Systems》。在文中他们研究了含有小随机扰动的动力系统,对其样本轨道的收敛速率做了刻画。具体来说,随着噪声\epsilon的减小,样本轨道收敛于确定性轨道的速率关于\epsilon是指数型的。

    大偏差的用途广泛,业已成为应用概率中一个极活跃的分支。它能估计假设检验中犯错误的渐进概率,估计随机系统的逸出概率和相对于确定性轨道有偏离的概率。大偏差对稀有事件概率的精确刻画,使得我们能够更精细地更定量地描述渐进行为,从而提高统计和计算方法的精度及效率。大偏差技术还被用于金融风险管理。对一个公司而言,可能导致破产的稀有事件比大概率收益多少要更加重要。

    本文拟使用大偏差原理结合Girsanov测度变换,改进路径依赖期权定价的Monte Carlo方法。我们由此将发现,在统计模拟中,一个关于稀有事件概率的先验估计对于计算效率的重要性。

    下面我们就几个具体情形简述大偏差的应用:
    1)
    无论是随机变量的取值集合,还是经验测度的取值集合,抑或是[0,T]区间上样本轨道的集合,样本落在这些集合中便可被视为一个事件。当该集合不含最终收敛到的点、测度或轨道时,\{样本落入该集合\}便是一个稀有事件,拥有指数型的渐进概率。

    首先介绍Varadhan引入的大偏差框架,3个level的大偏差在这种描述下拥有统一的定义:

    大偏差原理是概率测度族所满足的一种性质。具体来说,测度族\{P_{\epsilon}\}满足以I(a)为速率函数的大偏差原理是指:
    1)I(a)\in[0,+\infty]
    2)I(a)下半连续\Leftrightarrow\forall l<\infty ,水平集\{a|I(a)\leq l\}是闭集
    2')I(a)下紧\Leftrightarrow\forall l<\infty,水平集\{a|I(a)\leq l\}是紧集
    3)\forall 闭集C,\limsup_{\epsilon\downarrow 0}\epsilon\ln P_{\epsilon}(C)\leq-\inf_{a\in C}I(a)
    4)\forall 开集G,\liminf_{\epsilon\downarrow 0}\epsilon\ln P_{\epsilon}(G)\geq-\inf_{a\in G}I(a)

    (1)(2)(2')是对速率函数的要求,(3)(4)分别为大偏差的上、下界估计。若速率函数I(a)满足(2'),则称其为好速率函数(good rate function)。对于一个好速率函数I(a),存在a,使得I(a)=0

    在随机变量列或离散状态马氏链的情形,(3)(4)有更常见的写法:
    3’)\forall 闭集C,\limsup_{n\to \infty}\frac{1}{n}\ln P_{n}(C)\leq-\inf_{a\in C}I(a)
    4’)\forall 开集G,\liminf_{n\to \infty}\frac{1}{n}\ln P_{n}(G)\geq-\inf_{a\in G}I(a)

    由于(3)和(4),我们可以对\mathbb{R^{d}}上的BorelB的渐进概率做出上下界估计:
    -\inf_{a\in B^{\circ}}I(a)\leq \liminf_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)\leq \limsup_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)\leq-\inf_{a\in \overline{B} }I(a)
    \inf_{a\in B^{\circ}}I(a)=\inf_{a\in \overline{B} }I(a)时,\lim_{\epsilon\to 0}\epsilon\ln P_{\epsilon}(B)=-\inf_{a\in B}I(a),称BI连续集,此时事件B的渐进概率可以由LDP得到精确刻画。

    独立同分布情形下,经验测度收敛于先验测度。我们只考虑离散状态随机变量。设Y_1,Y_2,...Y_n,...是一列离散独立同分布的随机变量,状态空间为\Sigma。定义X_i\triangleq (I_{a_1}(Y_i),I_{a_2}(Y_i),...,I_{a_{|\Sigma|}}(Y_i)) ,那么X_1,X_2,...,X_n,...也是一列独立同分布随机向量。有\mathbb{R^{|\Sigma|}}上的Cramer原理,其对数矩母函数:f(\overrightarrow{\lambda} )=\ln E(e^{\langle \lambda,X_1\rangle})=\ln \Sigma_{i=1}^{|\Sigma|}e^{\lambda_i}P(a_i)
    计算得其速率函数:I(a)=D(a||P)D(\cdot ||P)称为相对熵,又叫Kullback-Liebler散度,它衡量了两个分布之间的差异,在这里衡量了经验测度a于先验测度P之间的差异。两个测度差异越小,相对熵也越小。D(a||P)\geq 0,当且仅当a=P时取等。D(a||P)是关于a的凸函数。

    对于遍历的马氏链而言,其经验测度仍收敛于平稳分布的先验测度。此时仍有经验测度的大偏差原理,称作Sanov's Theorem。由上所述,独立同分布条件下的Sanov's Theorem可看作\mathbb{R^{d}}上Cramer原理的推论。

    相关文章

      网友评论

          本文标题:大偏差原理:文献综述

          本文链接:https://www.haomeiwen.com/subject/fdfovqtx.html