美文网首页分析101
Hoeffding不等式简介

Hoeffding不等式简介

作者: Boye0212 | 来源:发表于2021-06-14 19:34 被阅读0次

    1 Hoeffding不等式

    Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

    它的思想与Markov不等式有些类似,我们先给出它的形式:

    Hoeffding不等式Y_1,\ldots,Y_n为独立观测,E(Y_i)=0a_i\leq Y_i\leq b_i。对于\epsilon\gt 0\forall t \gt 0,有
    P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8}

    2 证明

    首先,\forall t\gt 0,利用Markov不等式,我们有
    \begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned}

    而又由于a_i\leq Y_i\leq b_i,我们可将Y_i表示为Y_i=\alpha b_i+(1-\alpha)a_i,其中\alpha=\dfrac{Y_i-a_i}{b_i-a_i},利用Jensen不等式以及指数函数的凸性,有
    e^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i}

    两边取期望后,再构造一个函数g(u),可得
    E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)}

    其中u=t(b_i-a_i)g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)\gamma=-\dfrac{a_i}{b_i-a_i}

    我们可知g(0)=g'(0)=0,并且\forall u\gt 0,有g''(u)\leq 1/4

    现在,我们需要用到Taylor定理:若g为光滑函数,则\exists \xi\in(0,u),使得g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2。利用Taylor定理,必定\exists \xi\in (0,u),使得
    \begin{aligned} &g(u)\\ =& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\ =& \dfrac{1}{2}g''(\xi) u^2\\ \leq & \dfrac{u^2}{8}\\ =& \dfrac{t^2(b_i-a_i)^2}{8} \end{aligned}

    代回之后,我们有
    E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8}

    代回最上式,得证。

    3 Bernoulli分布情形

    这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

    假设X_1,\ldots,X_n\sim \text{Bernoulli}(p),记\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_i,则\forall \epsilon \gt 0,有
    P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2}

    证明:令Y_i=(1/n)(X_i-p),有E(Y_i)=0,且a\leq Y_i\leq b,其中a=-p/nb=(1-p)/n。直接应用Hoeffding不等式,有\forall \epsilon\gt 0\forall t \gt 0:
    P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)}

    由于上式对于任意t \gt 0都成立,取t=4n\epsilon,得到
    P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2}

    同理,若令Y_i=(1/n)(p-X_i),则有
    P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) = e^{-2n\epsilon^2}

    将两个不等式合并后,得证。

    4 应用

    我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

    假设X_1,\ldots,X_n\sim \text{Bernoulli}(p),取n=100\epsilon=0.2,使用Chebyshev不等式,我们有
    P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625

    而使用第3节中的Hoeffding不等式,有
    P(|\bar X_n - p|\gt \epsilon) \leq 0.00067

    可以看到,Hoeffding不等式的上界要小得多。

    相关文章

      网友评论

        本文标题:Hoeffding不等式简介

        本文链接:https://www.haomeiwen.com/subject/gomoeltx.html