美文网首页Machine Learning & Recommendation & NLP & DL机器学习与数据挖掘
机器学习概率统计知识(1): 无偏估计与有偏估计

机器学习概率统计知识(1): 无偏估计与有偏估计

作者: 阿瑟_TJRS | 来源:发表于2019-09-26 11:04 被阅读0次

引言

在机器学习中经常会接触到无偏估计和有偏估计这两类概念,本文汇总了多篇博客是讲解内容,旨在深入透彻地理解这两个概念

  • 有问题欢迎在交流区探讨学习,QQ:761322725
  • 码字不易,好心人随手点个赞👍

有偏估计(biased estimate)是指由\color{red}{样本值求得的估计值}\color{blue}{待估参数的真值}之间有系统误差,其期望值不是待估参数的真值。
在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中,“偏差”是一个函数的客观陈述。

一句话概括就是,有偏估计是在样本估计值和真值间存在误差的估计\color{red}{\mathbb{E}(\hat{\theta} )\neq \theta }

\color{red}{D_{有偏}(X)=\sigma ^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}
\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i
我们在日常统计中常用的样本方差即是有偏估计量

无偏估计是样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。
无偏估计的意义是:\color{red}{在多次重复下,它们的平均数接近所估计的参数真值。}
无偏估计常被应用于测验分数统计中。

\color{red}{D_{无偏}(X)=\sigma ^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}

假如,我们可以采样无穷无尽的样本,那么理论上下面的估计就是精确的,
\begin{equation}\begin{aligned}\sigma^2 =&\, \mathbb{E}\left[(x - \mu)^2\right]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\\ \mu =&\, \mathbb{E}[x]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n x_i\end{aligned}\end{equation}
这也可以理解为,当样本数趋于无穷时,有偏估计和无偏估计等价

分析讨论

为什么分母项变成n-1就成了无偏估计呢?

下面我们来证明其是无偏估计和有偏估计!

证明关键在于说明,计算样本估计量的期望值,将该期望值与参数真值进行比较,即计算/证明\mathbb{E}(\hat{\theta} )\neq \theta。 与上面所提到的样本无穷的假设相较,我们的实际计算中是只能采样一批数据进行计算,

n是一个固定的数字,比如我们随机梯度下降时,用一个batch的样本的平均梯度,来作为整体样本的梯度估计。另一方面,我们也不是估计一次就完事了,
我们可能会估计很多次,即首先采样n个样本,算一次得到μ_1σ^2_{有偏1};
再随机采样n个样本算一次得到μ_2σ^2_{有偏_2},依此类推得到(μ_3,σ^2_{有偏_3}),(μ_4,σ^2_{有偏_4}),…,我们想知道的是:
\begin{equation}\begin{aligned}\mu &\xlongequal{?}\mathbb{E}\left[\hat{\mu}\right] = \lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\mu}_{i}\\ \sigma^2 &\xlongequal{?}\mathbb{E}\left[\hat{\sigma}^2_{\text{有偏}}\right]=\lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\sigma}^2_{\text{有偏},i} \end{aligned}\end{equation}
苏剑林. (2019, Jun 19). 《简述无偏估计和有偏估计 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

\color{red}{即对各次抽样的估计量计算平均,取期望值}

也就是说,“有限平均”的“无限平均”,是否等于我们最终要求的平均?

这里我们取用n=2,每次只取两个样本,来以实际例子的讨论无偏估计和有偏估计。

  • 首先看样本均值的估计量\hat{\mu},定义样本均值真实值为\mu,两个样本的情况下:
    \hat{\mu} = \frac{x_1+x_2}{2}
    \mathbb{E}(\hat{\mu})=\mathbb{E}({ \frac{x_1+x_2}{2}})= \frac{1}{2}\mathbb{E}(x_1)+\frac{1}{2}\mathbb{E}(x_2)=\frac{\mu}{2}+\frac{\mu}{2}=\color{red}{\mu}
    可见我们常用样本均值的估计量\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i\color{red}{无偏估计}注:此处非标准严格的证明,仅为讨论解释
  • 再看样本方差的估计量\hat{\sigma}^2
    \hat{\sigma}^2 = \frac{1}{2}((x_1-\frac{x_1+x_2}{2})^2+(x_2-\frac{x_1+x_2}{2})^2)
    \mathbb{E}(\hat{\sigma}^2)= \frac{1}{4}\mathbb{E}(x_1^2+x_2^2-x_1x_2)=\color{red}{\frac{1}{4}({\mathbb{E}}_x(2x^2)-{\mathbb{E}}_{x_1}(x_1){\mathbb{E}}_{x_2}(x_2))}
    =\color{red}{\frac{1}{2}(\mathbb{E}(x^2)-\mu^2)}
    而准确的方差表达式为\color{red}{\mathbb{E}(x^2)-\mu^2},对上式乘\frac{n}{n-1}即2,就可以得到准确方差。说明了其为有偏估计。

直观来看,用有限样本的上式来估计方差,由于样本少了,波动也会变小,所以方差估计也会偏小,这就是所谓的有偏
极端情况下,如果只采样一个样本进行估计呢?估计出来的方差就是0了,不管怎么重复实验,结果还是0,我们总不能说整批样本的方差一定就是0吧?这便是有偏估计的最简单例子。
并不是所有的有偏估计都可以像方差一样,简单将n换成n−1就变为无偏估计了。一般情形下,我们想要估计的量,连估计本身都很难,更不要说有偏还是无偏了,所以要对一般的估计量消除偏差,都得具体问题具体分析了

推导证明

我们来尝试证明
\mathbb{E}(\hat{\sigma}^2)=\sigma^2
\mathbb{E}(\hat{\sigma}^2)=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2)
=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2+\hat{\mu}^2-2x_i\hat{\mu}))
=\frac{1}{n-1}\mathbb{E}(\sum_{i=1}^{n}(x_i^2)-n\hat{\mu}^2)
=\frac{1}{n-1}(\sum_{i=1}^{n}\mathbb{E}(x_i^2)-n\mathbb{E}(\hat{\mu}^2))
\color{red}{D(x)=E(x^2)-E(x)^2}
代入上式可得:
=\frac{1}{n-1}(\sum_{i=1}^{n}(D(x_i)+E(x_i)^2)-n\mathbb{E}(\hat{\mu}^2))
=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(D(\hat{\mu})+E(\hat{\mu})^2))
\color{blue}{D(\hat{\mu})=D(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}D(x_i)}//总样本方差与抽样方差相等
=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(\frac{1}{n}\sigma^2+\mu^2))
\color{red}{=\sigma^2}

通过上式也直接证明了n-1式的无偏估计特性

在各类科学计算工具包中,对这两种估计都有不同的实现,使用时应该根据需要选择区分。

参考资料

https://blog.csdn.net/cx1165597739/article/details/93330524
https://blog.csdn.net/weixin_31866177/article/details/89003517
苏剑林. (2019, Jun 19). 《简述无偏估计和有偏估计 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

相关文章

  • 机器学习概率统计知识(1): 无偏估计与有偏估计

    引言 在机器学习中经常会接触到无偏估计和有偏估计这两类概念,本文汇总了多篇博客是讲解内容,旨在深入透彻地理解这两个...

  • 数据分析学习Day2---商务与统计(第五章)

    1.参数 2.有偏估计与无偏估计 但统计量都是无偏估计时,应该考虑方差即分散程度,选取最小方差的无偏估计。 3.抽...

  • 深度学习 - 一元线性回归

    学习目标 一元线性回归模型 回归模型参数估计 1.最小二乘估计 2.最大似然估计 3.有偏估计与无偏估计

  • 无偏估计

    无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估...

  • 无偏估计

    实际生活中,如果我们需要了解一些统计数据的话,通常都是通过样本数据来估计总体数据的。例如,我们想知道全国高校学生的...

  • 无偏估计

    今天学习到一个名词,无偏估计。如何理解“不论总体服从什么分布,样本均值是总体均值的无偏估计量”这句话,什么是无偏估...

  • 概率论复习(二)

    保研会问到一些数学知识,简单做下总结。 1、什么是极大似然估计,极大似然估计是否是无偏估计。能否写出概率的形式。矩...

  • Statistics基本定理

    概念: 总体均值 总体方差 样本均值 样本方差 无偏估计:用样本统计估计总体参数时,估计量的均值(数学期望)与未知...

  • 1.0 神经网络和深度学习 概述

    先导知识(不完全统计) 线性代数:向量、矩阵 以及 矩阵的计算 概率论: 概率计算、参数估计 高等数学:偏导数的计...

  • Unbiased Estimation 无偏估计

    Welcome To My Blog 何谓无偏估计 就是用某个公式对采样后的样本进行统计,比如求样本的方差,这个方...

网友评论

    本文标题:机器学习概率统计知识(1): 无偏估计与有偏估计

    本文链接:https://www.haomeiwen.com/subject/rlnquctx.html