经验分布函数简介

作者: Boye0212 | 来源:发表于2021-06-15 14:18 被阅读0次

经验分布函数简介
计算数据的经验分布函数与MATLAB作图
18旅游二班各组自我简介汇总
简介
简介
简介
简介
简介
简介
简介

1 概念

如果我们想知道某个随机变量 $X$ 的分布 $F$ ，这在一般情况下当然是无法准确知道的，但如果我们手上有它的一些独立同分布的样本，可不可以利用这些样本？一个很简单的办法就是，把这些样本的“频率”近似为随机变量的“概率”。

经验分布函数（empirical distribution function）：给每个点 $1/n$ 的概率质量，得到CDF：
$\hat{F}_n(x) = \dfrac{\sum_{i=1}^{n}I(X_i\leq x)}{n}$

2 性质

经验分布函数，有什么性质？它可以很好地近似真实的分布函数吗？我们给出如下几个定理。

定理：对于任意给定的 $x$ ，有

$E(\hat{F}_n(x) )=F(x)$ ；
$V(\hat{F}_n(x) )=\dfrac{F(x)(1-F(x))}{n}\to 0$ ；
$\text{MSE} = \dfrac{F(x)(1-F(x))}{n}\to 0$ ；
$\hat{F}_n(x)\stackrel{P}{\longrightarrow}F(x)$ 。

Glivenko-Cantelli定理： $X_1,\ldots,X_n\sim F$ ，那么
$\sup_x |\hat{F}_n(x)-F(x)|\stackrel{P}{\longrightarrow}0$
更准确地说，上式其实是几乎必然收敛的。

Dvoretzky-Kiefer-Wolfowitz (DKW) Inequity： $X_1,\ldots,X_n\sim F$ ，那么 $\forall \epsilon\gt 0$ ，有
$P\left(\sup_x |\hat{F}_n(x)-F(x)|\gt \epsilon\right) \leq 2e^{-2n\epsilon^2}$

利用DKW不等式，可以构造出 $F$ 的非参数的 $1-\alpha$ 置信带：定义 $L(x)=\max\left\{\hat{F}_n(x)-\epsilon_n,0\right\}$ ， $U(x)=\max\left\{\hat{F}_n(x)+\epsilon_n,0\right\}$ ，其中 $\epsilon_n=\sqrt{\dfrac{1}{2n}\log(\dfrac{2}{\alpha})}$ ，那么有
$P[L(x)\leq F(x)\leq U(x),\forall x] \geq 1-\alpha$

3 应用

经验分布函数有什么用？它可以用来计算一些statistical functional（统计泛函）。

假设要计算的statistical functional为 $T(F)$ ，那么，可以利用经验分布函数，代替未知的分布函数，计算出 $\theta=T(F)$ 的plug-in estimator（嵌入式估计量）： $\hat\theta=T(\hat{F}_n)$ 。

如果存在某个 $r(x)$ 使得 $T(F)=\int r(x) dF(x)$ ，那么 $T$ 就称为linear functional（线性泛函），这是因为这样的 $T$ 必定满足 $T(aF+bG)=aT(F)+bT(G)$ 。对于这样的linear functional $T(F)$ ，它的plug-in estimator可以写为：
$T(\hat{F}_n)=\int r(x)d \hat{F}_n=\dfrac{1}{n}\sum_{i=1}^{n}r(X_i)$