美文网首页
斯坦福统计学习CS229T/STATS231第三课·有限样本性质

斯坦福统计学习CS229T/STATS231第三课·有限样本性质

作者: 顾劝劝 | 来源:发表于2020-06-10 22:20 被阅读0次

训练集上误差小,往往测试集上误差也小。这是为什么呢?
瞧瞧上节课证明的:
L(\hat\theta)-L(\theta^*)\approx p/2n + o(\frac{1}{n})\tag{1}
也就是说,当样本数趋向于无穷,用MLE估计得到的、使得训练损失最小的参数,在真实分布中的损失也差不离。

这个大样本渐进性质美中不足的是得有个假设,要求给定真实\theta^*的话,数据的分布是well-specified的。不过,即便没有这个假设,我们也能给出更一般的性质:
L(\hat\theta)-L(\theta^*)\leq f(p,n)
美中不足其二是,(1)忽略了n的高阶项,可能也忽略了p不能被忽略的高阶项,比如\frac{p^{100}}{n^2}。这要求n>p^50才能小于1。
那么在这节课中认识有限样本的性质吧。


1 符号

这节略过吧,除了大O记号、A\lesssim B\Leftrightarrow A\leq O(B)之外没有新朋友要介绍给大家认识。作者特别提示,\theta不是一个随机数,它代表着真实值,而\hat\theta是随机数,它是由\hat L学出来的,\hat L又是又带随机性的数据估计的。所以L(\hat\theta)也是个随机数咯。

2 目标

渐进性质是关于经验损失和真实损失之间的差,那么有限样本性质也得整个类似的:
\mathbb{P}(L(\hat\theta)-L(\theta^*)>\epsilon)\leq \delta
也就是有至少1-\delta的概率使得L(\hat\theta)-L(\theta^*)\geq \epsilon

根据定义我们已经知道了\hat L(\hat\theta) = \inf_\theta \hat L(\theta)\leq \hat L(\theta^*),要证这个类似L(\hat\theta)\leq L(\theta^*)+[某额外项]的东西,得找个\hat L(\hat\theta)\approx L(\hat\theta)或者\hat L(\theta^*)\approx L(\theta^*)来过桥。

那其实后面那个近似好证啊,\theta^*不是个随机变量,\hat L(\theta^*)是各个期望为L(\theta^*)的样本的算术平均,很容易能得到一个concentration inequality:
\mathbb{P}[|\hat L(\theta^*)-L(\theta^*)|\leq\epsilon]\geq 1-\delta
这个不等式对任何常数\theta都成立。
难就难在\hat L(\hat\theta)\approx L(\hat\theta)上。concentration inequality只对特定的参数有效,由于\hat\theta是个随机数,我们得用一个更强的concentration property,来说明这个近似对于\Theta的每一个假设都成立。于是我们的一致收敛性质登场了。

3 一致收敛

刚才说了,一致收敛就是对于集合内的所有可能都收敛:
\mathbb{P}[\forall \theta \in \Theta, |\hat L(\theta)-L(\theta)|\leq \epsilon]\geq 1-\delta
这样一来,对于所有的参数值,就能保证训练损失和实际的期望损失非常接近了。

如图(a),一致收敛只要保证误差依概率在范围内波动,当然更好的情况如(b)连形状都相似

过桥证明打算这么写:
L(\hat\theta)-L(\theta) = (L(\hat\theta)-\hat L(\hat\theta))+(\hat L(\hat\theta)-\hat L(\theta^*)) + (\hat L(\theta^*)-L(\theta^*))\\ \leq |L(\hat\theta)-\hat L(\hat\theta)|+0 + |\hat L(\theta^*)-L(\theta^*)|\\ \leq 2 \sup_{\theta \in \Theta} |L(\theta)-\hat L(\theta)| \quad\quad\quad\quad\quad\quad\quad

假设一致收敛能证,那么训练参数和真实参数的期望损失之差就有了上界2\epsilon

一般这种概率不等式都会用到Hoeffding's inequality:
X_1,X_2,\ldots,X_n独立随机变量,满足a_i\leq X_i\leq b_ia.s.,那么对于任意\epsilon > 0有:
\mathbb{P}\left[ \left|\frac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[\frac{1}{n}\sum_{i=1}^n X_i]\right| \leq \epsilon\right]\geq 1-\exp \left(-\dfrac{2n^2\epsilon^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)

套用在l((x,y),\theta)\in [0,1]\hat L(\theta)上就是:
\mathbb{P}\left[ \left|\hat L(\theta) - L(\theta)\right| \leq \epsilon\right]\geq 1-\exp \left(-2n\epsilon^2\right)\tag{2}

再给一个很松的放缩:
\mathbb{P}[\exists \theta\in \Theta, \left|\hat L(\theta)-L(\theta)\right|>\epsilon]\leq \sum_{\theta \in \Theta}\mathbb{P}[\left|\hat L(\theta)-L(\theta)\right|>\epsilon]\leq \sum_{\theta \in \Theta} 2 e^{-2n\epsilon^2}=2|\Theta|e^{-2n\epsilon^2}\tag{3}

\delta = 2|\Theta|e^{-2n\epsilon^2},反求一下能得到\epsilon = \sqrt{\dfrac{\ln \frac{2|\Theta|}{\delta}}{2n}}=\sqrt{\dfrac{\ln |\Theta|+\ln\frac{2}{\delta}}{2n}}。也就是说,至少1-\delta的概率

\forall \theta \in \Theta, \left|\hat L(\theta)-L(\theta)\right|\leq\sqrt{\dfrac{\ln |\Theta|+\ln\frac{2}{\delta}}{2n}}

回到最初想要证明的过桥式,替换掉2\epsilon可得至少1-\delta的概率满足:
L(\hat\theta)-L(\theta)\lesssim\sqrt{\dfrac{\ln |\Theta|+\ln\frac{1}{\delta}}{n}}\tag{4}

定理3

如果l((x,y),\theta)\in [0,1]\Theta有限,那么就有式子(2)(3)(4)。
(4)也可以看做是中心极限定理的量化版本。

4 PAC 学习

定义4(Valiant提出的PAC学习算法)

\mathcal{A}是一个关于\Theta的PAC学习算法,如果对于任何\mathcal{X}\times \mathcal{Y}的分布P\epsilon>0\delta\in(0,1)
\hat\theta = \mathcal{A}((x^{(1)},y^{(1)}),(x^{(2},y^{(2)}),\ldots,(x^{(n)},y^{(n)}))
满足
\mathbb{P}[L(\hat\theta)-L(\theta^*)>\epsilon]\leq \delta
并且\mathcal{A}在size(\mathcal{X})、\dfrac{1}{\epsilon}\dfrac{1}{\delta}上以多项式时间运行。

评论5

非正式地,size(\mathcal{X})是\mathcal{X}的比特数,比如如果\mathcal{X}有限的话,取\log_2|\mathcal{X}|。那更通常的情况呢,\mathcal{X}被实数参数化的话,那么这个定义要求\mathcal{X}先离散化。

评论6

定义4暗示了样本量也是size(\mathcal{X})、\dfrac{1}{\epsilon}\dfrac{1}{\delta}的多项式数量级上,不然\mathcal{A}读完所有数据的时间都不够。

上述Valiant框架有一个局限性,它得对每一个分布P都管用,这其实有点太激进,不现实。近年来提出的学习理论往往都对分布要求一些特定的假设,比如正态啦、可实现啦(意思就是\Theta包含了你要学的函数)。
所以学习理论经常会cue一些假设,大都这么写:

  • 理论A P说明了Q
  • 理论B 在特定假设下,P说明了Q
  • 理论C 在特定假设下,P说明了Q',Q'强于Q。

理论B是三个里最弱的,A和C没法比较。
深度学习里Q经常是没意义的,这样的话我们会用理论C,加个假设得到有意义的结论Q',然后告诉大家这个假设什么时候可以弱化、什么时候可以消除。

相关文章

网友评论

      本文标题:斯坦福统计学习CS229T/STATS231第三课·有限样本性质

      本文链接:https://www.haomeiwen.com/subject/ktgytktx.html