美文网首页
样本量估计

样本量估计

作者: 热爱生活的大川 | 来源:发表于2019-12-16 10:39 被阅读0次

ERM

  1. 真实损失
    定义D为总体分布,f为真实标签函数,h为标签函数,也叫模型或分类器。
    L_{D,f}(h)为在总体分布和真实标签函数分别为D和f时h所对应的误差,也叫做真实损失。其公式为
    \begin{align} L_{D,f}(h) &= P_{x \sim D}[f(h(x) \neq f(x)] \\ &= D(\{x \in D:h(x) \neq f(x)\}) \\ \end{align}

  2. 经验损失
    抽取m个独立同分布样本,组成一个m-tuples的样本组S_x,将S_x的集合定义为样本集S
    以[m]表示数据集{1,2,...,m},L_S表示形式上的经验损失函数。
    则有如下经验损失的定义公式
    L_S(h)=\frac{\|\{i \in [m]: h(x_i)\neq y_i \} \|}{m}
    L_S \to 0时,可训练得到模型h_S

  3. 过拟合
    定义\epsilon为误差精度,过拟合是指经验损失可训练而真实损失超过了误差精度,表达式为
    L_{D,f}(h_S)>\epsilon
    为消除过拟合,我们主要手段是限制合理模型范围。

  4. 经验风险最小化(ERM)
    定义模型的有限假设类\mathscr{H},则令
    h_S=\arg\min_{h \in \mathscr{H} }L_S(h)

置信度

  1. 误导集
    定义模型的有限假设类\mathscr{H},则无效的模型集合为
    \mathscr{H}_B = \{ h \in \mathscr{H}:L_{D,f}(h)>\epsilon \}
    定义S_x表示样本集S中的一个样本组,则样本组的误导集可表示为
    M=\{S_x \in S: \exists h \in \mathscr{H}_B , L_S(h) \to 0 \}

  2. 置信度
    定义_\delta为抽取到无效样本组的概率,1-\delta为置信度。其定义式为
    \delta = D^m(\{ S_x \in S:L_{D,f}(h_S)>\epsilon \})
    如下推导
    \begin{align} \delta &\le D^m(M) \\ & \le \sum_{h \in \mathscr{H}_B}D^m(\{S_x \in S: L_S(h) \to 0 \}) \\ & = \sum_{h \in \mathscr{H}_B}\prod_{i=1}^{m}D(\{ x_i:h(x_i)=y_i=f(x_i) \}) \\ & \le \sum_{h \in \mathscr{H}_B}\prod_{i=1}^{m}(1-\epsilon) \\ & = \| \mathscr{H}_B \| (1-\epsilon)^m \\ & \le \| \mathscr{H} \| e^{-\epsilon m} \end{align}
    得到
    \delta \leq \| \mathscr{H} \| e^{-\epsilon m}

  3. 样本量
    m \ge \frac{\ln(\| \mathscr{H} \|/\delta)}{\epsilon}

举例:性别估计是个二分类,假设使用1000个0-1特征,则\| \mathscr{H} \|=2^{1000},根据经验\delta=0.001,希望的精度\epsilon=0.1,则样本量m \ge 10100\ln(2)

设模型参数数量为N,参数取值范围为R,则
\begin{align} m & \ge \frac{\ln(\| \mathscr{H} \|/\delta)}{\epsilon} \\ & = \frac{N\ln(R)- \ln(\delta)}{\epsilon} \end{align}
可见样本数量应与参数数量N成正比例关系。

相关文章

  • 样本量估计

    ERM 真实损失定义为总体分布,为真实标签函数,为标签函数,也叫模型或分类器。为在总体分布和真实标签函数分别为D和...

  • 样本量估计

    参考文献: 1.样本量估计:http://movie.medline.org.cn/CME/889811.jhtm...

  • 样本量估计

    转自“医学统计园”微信公众号,欢迎扫描二维码关注 在我们进行临床实验,或者基础研究时,一定会涉及到需要纳入多少例研...

  • 样本量估计3

    上两节都讲述了具体样本量是如何估算的,在进行样本量估计之前除了要明确α,β值,还需要懂得你是采取的是何种检验方法。...

  • 样本量估计2

    PASS可以进行多种分析的样本量估计,这里演示t检验、方差分析时,如何对各组数据进行样本量估计,如果需要更多样本估...

  • R 样本量和检验效能估计

  • G.Power教程 | 样本量估计

    Hello, 这里是行上行下,我是喵君姐姐~ 一入科研深似海,从此假期是路人。 网上正在热论996,而大部分的科研...

  • 论文写作或审稿时的十种常见统计错误(下)

    5.使用小样本 当样本量很小时,只能检测到较大的效应,这使得对效应量真正大小的估计充满不确定,进而导致对实际效应量...

  • R语言和统计学(1)

    样本量和检验效能估计 检验效能分析可以在给定置信度的情况下,判断检验到给定效应值时所需的样本量。同样可以在给定置信...

  • 3. 样本量的确定

    抽样中样本量的确定是一个非常重要的问题,在不考虑抽样成本的前提下,样本量越多估计的越准,然而实际情况中我们需要平衡...

网友评论

      本文标题:样本量估计

      本文链接:https://www.haomeiwen.com/subject/klatpctx.html