美文网首页
斯坦福统计学习CS229T/STATS231第四课·ε-cove

斯坦福统计学习CS229T/STATS231第四课·ε-cove

作者: 顾劝劝 | 来源:发表于2020-06-12 22:54 被阅读0次

    来自讲义
    有没有注意到,上次的差距上界用到了|\mathcal{\Theta}|,集合内参数取值数量。如果参数取值是连续的,那上界岂不是要无穷大了?不急,这节课针对参数空间有界的情况,我们值域离散化以后再来证明。本节课后半程会介绍更多的concentration inequalities。

    1 参数化假设的一致收敛

    基本思想是离散化后,每个点都找到一种和它接近的代表性取值,这样又可以进行累加找到适用于所有点的一致收敛。

    1.1 设定

    \mathcal{H}是参数化的假设函数,\mathcal{H} = \{h_\theta: \theta \in S \subset \mathbb{R}^p\},针对参数空间有界的情况,S = \{\theta\in \mathbb{R}^p:|\theta|_2\leq B\},其中B是个正常数。

    1.2 一致收敛

    上回说到,假设有限的一致收敛定理是:
    \forall \theta \in \Theta,\left|\hat L(\theta)-L(\theta)\right|\leq\sqrt{\dfrac{\ln |\Theta|+\ln\frac{2}{\delta}}{2n}}
    好了,让我们揭晓今天参数化假设的一致收敛定理真面目。

    定理4.1

    l((x,y),\theta)\in[-M,M]L(\theta)和\hat L(\theta)都是基于l2范数L-Lipschitz。那么至少有1-O(p^{-10})的概率:
    \left|\hat L(\theta)-L(\theta)\right|\lesssim M\sqrt{\dfrac{p\log(LBn)}{n}}\tag{1}

    评论4.1

    这并不是一个紧界,经过更仔细的推导,你会发现失败概率可以从O(p^{-10})降低至O(e^{-p})

    评论4.2

    结合定理3的证明方法和定理4.1,
    我们可以得到,至少有1-O(p^{-10})的概率:
    L(\hat\theta)-L(\theta^*)\lesssim M\sqrt{\dfrac{p\log(LBn)}{n}}\tag{2}
    其中\theta^* = \arg\min_{\theta\in S} L(\theta)

    第一课曾讲到,估计参数和真实参数的渐进差距是:
    L(\hat\theta)-L(\theta^*)\approx \dfrac{p}{2n} + o(\dfrac{1}{n})\ \text{as} \ n\rightarrow \infty\tag{3}
    (2)(3)这两个性质一比,你会发现(2)对n的收敛速度明显慢,不过(3)的条件更苛刻:一来,(2)并不限制n的大小。二者,(3)还得假设数据来自于真实分布,(2)和定理4.1没有关于数据分布的假设。

    2.2.1 用\epsilon-cover来给参数空间离散化

    欲证定理4.1,我们得给参数空间找个离散化的方法。先来介绍一下\epsilon-cover:

    定义4.1 (\epsilon-cover)

    \forall x\in S, \exists x' \in C满足\rho(x,x')\leq \epsilon就称这个C\subseteq SS关于距离度量\rho\epsilon-cover。换言之,C\subseteq S要满足:
    S \subseteq \text{Ball}(x,\epsilon,\rho)

    接下来的引理讲告诉我们,有界参数空间的\epsilon-cover不会包含太多元素。

    引理4.1(\epsilon-cover元素个数)

    如果\rho是2范数,S的\epsilon-cover元素个数最多(\dfrac{3B\sqrt{p}}{\epsilon})^p个。

    讲讲大致证明的思路。我们可以这样设定\epsilon-cover:
    C=\{x\in S: x_i = k_i\dfrac{\epsilon}{\sqrt{p}},k_i\in\mathbb{Z},|k_i|\leq \dfrac{B\sqrt{p}}{\epsilon}\}
    也就是说,每个维度都在[-B,B]上规律地排列着格点,各自单维度距离是\dfrac{\epsilon}{\sqrt{p}},这样两个p维空间上的点之间的欧氏距离就是\epsilon。这样的点有多少个呢?那就数每个维度k_i的个数,左右界是\dfrac{B\sqrt{p}}{\epsilon},中间算上0,总共是\left(\dfrac{2B\sqrt{p}}{\epsilon}+1\right)^p\leq \left(\dfrac{3B\sqrt{p}}{\epsilon}\right)^p

    由红点构成的S的ε-cover

    评论4.3

    其实……这个个数还是放水放多了。我们能证明\left(\dfrac{3B}{\epsilon}\right)个!(不借助k_i直接排点就行了)

    2.2.2 证明定理4.1

    利用Hoeffding's inequality,我们有:
    \forall \theta \in C, |\hat L(\theta)-L(\theta)|\leq \delta
    以概率\geq 1- 2|C|\exp\{-\dfrac{n\delta^2}{2M}\}满足。(因为l\in [-M,M]
    对于每个\theta\in S都能找到\theta_0\in C使得||\theta-\theta_0||_2 \leq \epsilon。用刚才假设的\hat LL有L-Lipschitz的特性,不难推出:
    L(\theta)-L(\theta_0)|\leq L||\theta-\theta_0||_2 \leq L\epsilon,
    \hat L(\theta)-hat L(\theta_0)|\leq L||\theta-\theta_0||_2 \leq L\epsilon。
    于是再过个桥,界就有了:
    |\hat L(\theta)-L(\theta)|\leq |\hat L(\theta)-\hat L(\theta_0)|+|\hat L(\theta_0)-L(\theta_0)|+|L(\theta_0)-L(\theta)|\leq 2L\epsilon + \delta\tag{4}
    剩下的就是选个合适的\delta\epsilon来完成定理4.1的证明。


    这样(4)的差距变成了

    当M、L、B大于某些小常数时成立。这样我们证明了一个比定理4.1更强的定理。

    3 concentration inequality

    3.1 马尔科夫不等式

    X是非负的随机变量,对任何正数t,有
    \mathbb{P}[X\geq t]\leq \dfrac{\mathbb{E}[X]}{t}

    3.2 切比雪夫不等式

    X是随机变量,对于任何正数t,有
    \mathbb{P}[|X-\mathbb{E}[X]|\geq t]\leq \dfrac{Var[X]}{t^2}
    用马尔科夫不等式来证明切比雪夫不等式:
    切比雪夫不等式的左边其实等于\mathbb{P}[(X-\mathbb{E}[X])^2\geq t^2]
    那我们就把(X-\mathbb{E}[X])^2当做一个随机变量,根据马尔科夫不等式:\mathbb{P}[(X-\mathbb{E}[X])^2\geq t^2]\leq \dfrac{\mathbb{E}[(X-\mathbb{E}[X])^2]}{t^2}=\dfrac{Var[X]}{t^2}

    举一反三,对于任何正整数k,都有
    \mathbb{P}[|X-\mathbb{E}[X]|\geq t]=\mathbb{P}[(X-\mathbb{E}[X])^k\geq t^k]

    甚至不一定要多项式,换成其他非降函数也行。比如对非负的\lambda
    \mathbb{P}[X-\mathbb{E}[X]\geq t]=\mathbb{P}[e^{\lambda (X-\mathbb{E}[X])}\geq e^{\lambda t}]\leq \dfrac{\mathbb{E}[e^{\lambda (X-\mathbb{E}[X])}]}{e^{\lambda t}}\tag{5}

    不过单用切比雪夫,只能得到n个0、1之间的随机变量的均值的方差小于等于n,好像推不出霍夫丁不等式那么小的失败概率。试试用矩母函数来推方差吧。

    3.2 矩母函数

    定义4.2

    随机变量X的矩母函数M_X是:
    M_X(\lambda) = \mathbb{E}[e^{\lambda X}]
    泰勒展开之后是
    \mathbb{E}[e^{\lambda X}] = \mathbb{E}[1+\lambda X + \dfrac{(\lambda X)^2}{2!}+\ldots] = 1+\lambda \mathbb{E}[X] + \dfrac{\lambda^2}{2}\mathbb{E}[X^2]+\ldots\tag{6}
    对于X-\mathbb{E}X这个随机变量也是一样的,套用(6)可得:
    \mathbb{E}[e^{\lambda(X-\mathbb{E}[X]}] = 1+\lambda^2Var(X)+\ldots
    回到Z=\sum_{i=1}^n X_i,我们有
    \mathbb{E}[e^{\lambda(Z-\mathbb{E}[Z]}] = \mathbb{E}[e^{\lambda(X_1-\mathbb{E}[X_1]} \ldots e^{\lambda(X_n-\mathbb{E}[X_n]}] = \mathbb{E}[e^{\lambda(X_1-\mathbb{E}[X_1]}]\ldots\mathbb{E}[e^{\lambda(X_n-\mathbb{E}[X_n]}]
    利用(5)这个马尔科夫不等式的变形,可得
    \mathbb{P}[Z-\mathbb{E}[Z]\geq t]\leq \dfrac{\mathbb{E}[e^{\lambda(X_1-\mathbb{E}[X_1]}]\ldots\mathbb{E}[e^{\lambda(X_n-\mathbb{E}[X_n]}]}{e^{\lambda t}}
    对任意非负\lambda成立。也就是说,
    \mathbb{P}[Z-\mathbb{E}[Z]\geq t]\leq \inf_{\lambda\geq 0}\dfrac{\mathbb{E}[e^{\lambda(X_1-\mathbb{E}[X_1]}]\ldots\mathbb{E}[e^{\lambda(X_n-\mathbb{E}[X_n]}]}{e^{\lambda t}}
    两边取log
    \log \mathbb{P}[Z-\mathbb{E}[Z]\geq t]\leq \inf_{\lambda\geq 0} \sum_{i=1}^n \log \mathbb{E}[e^{\lambda(X_i-\mathbb{E}[X_i]}]-\lambda t

    我们利用3.1中Var(X)\leq 1这个结论,可以得到\mathbb{E}[e^{\lambda(X_i-\mathbb{E}[X_i]}]=1+\lambda^2/2 + 高阶小量
    近似地,
    \log \mathbb{P}[Z-\mathbb{E}[Z]\geq t]\leq \inf_{\lambda\geq 0} [n \log (1+\lambda^2/2)-\lambda t]\\ \approx \inf_{\lambda\geq 0} [n \lambda^2/2-\lambda t] \\= -t^2/(2n)\\ \Leftrightarrow \mathbb{P}[Z-\mathbb{E}[Z]\geq t]\leq e^{-t^2/(2n)}

    虽然和霍夫丁不等式有所出入,但至少数量级对了。应当如何修正以证明霍夫丁不等式呢?请听下回分解。

    相关文章

      网友评论

          本文标题:斯坦福统计学习CS229T/STATS231第四课·ε-cove

          本文链接:https://www.haomeiwen.com/subject/iufvtktx.html