(数理统计基础2)参数估计

作者: To_QT | 来源:发表于2019-05-05 15:45 被阅读0次

(数理统计基础2)参数估计
经典Vs贝叶斯统计对点估计和线性回归理解
数理统计-参数估计
极大似然估计的前提条件
概率数理统计七参数估计
重要抽样分布：卡方分布（χ2分布）、t分布和F分布
5.1 参数估计的概念及两种估计方法
机器学习基础之参数估计
计算机视觉_学习目录
AI学习笔记之数学基础三（数理统计）

符号说明：设有一个统计总体，以 $f(x, \theta_1, \theta_2, ... ,\theta_n)$ 表示其概率密度函数（若总体为离散型则为概率函数）。其中， $x$ 表示任意实数， $\theta_i, i=1,2,..., n$ 表示未知的参数，以正态分布 $N(\mu, \sigma^2)$ 为例， $\theta_1:\mu$ ， $\theta_2: \sigma$

1. 估计方法

点估计

方法

从总体中抽出样本 $X_1,X_2,X_3,...,X_n$ ，依据这些样本对参数 $\theta_1, \theta_2, ..., \theta_n$ 进行估计。

例子：

指数分布为例：假设随机变量 $X$ 服从以 $\lambda$ 为参数的泊松分布，参数 $\lambda$ 未知，现在知道样本值，我们可以利用泊松分布中 $E(X)=\lambda$ ，通过计算样本均值，对 $\lambda$ 进行估计。

1.1 矩估计

可以理解成解方程组。。。

啥是矩？

随机变量数字特征复习

样本均值：
$\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i \tag{2.1}$

样本方差：
$\begin{align} S^2 =& \frac{1}{n-1} \sum_{i=1}^{n}(X_i-\overline{X})^2 \\\ =& \frac{1}{n-1} (\sum_{i=1}^{n}X_i^2-n\overline{X}^2) \tag{2.2} \end{align}$

由大数定理可知，样本矩的连续函数依概率收敛于相应的总体矩的连续函数

一般情况下，通过计算样本方差和样本均值可以解决大多数常见分布的矩估计问题。

1.2 极大似然估计

直观理解

在随机试验中，假设随机变量 $X$ 有概率密度函数 $f(x, \theta_1, \theta_2, ..., \theta_k)$ 。而 $X_1, X_2, X_3, ..., X_n$ 是从总体中抽出的样本，那么，这个 $n$ 的随机变量的联合概率密度为：
$f(X_1, \theta_1, \theta_2, ..., \theta_k)f(X_2, \theta_1, \theta_2, ..., \theta_k)f(X_3, \theta_1, \theta_2, ..., \theta_k)···f(X_k, \theta_1, \theta_2, ..., \theta_k)$
记为 $L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k)$ 。

那么现在来皮一下，对 $L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k)$ 进行两种操作：

固定住 $\theta_1, \theta_2, ..., \theta_k$ :
- 这个时候， $L$ 是一个概率密度函数，若存在 $L(Y_1, ..., Y_n; \theta_1, \theta_2, ..., \theta_k)>L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k)$ ，我们可以理解为在观察时，出现 $Y_1, Y_2, ..., Y_n$ 的概率要大于 $X_1, X_2, ..., X_n$ 出现的概率。
固定住 $X_1, ..., X_n$ ：
- 当观察到 $X_1, X_2, ..., X_n$ 时，若出现 $L(X_1, ..., X_n; {\theta_1}', ..., {\theta_k}')>L(X_1, ..., X_n; {\theta_1}'', ..., {\theta_k}'')$ ，则说明被估计参数 ${\theta_1}', {\theta_2}', ..., {\theta_k}'$ 比 ${\theta_1}'', {\theta_2}'', ..., {\theta_k}''$ 更接近与真实的 ${\theta_1}, {\theta_2}, ..., {\theta_k}$ 。
- 也就可以理解为：函数 $L(X_1, ..., X_n, \theta_1, \theta_2, ..., \theta_k)$ 对于不同的 ${\theta_1}, ..., {\theta_k}$ 的取值，反映了在观察值 $X_1, X_2, ..., X_n$ 已知的情况下， ${\theta_1}, ..., {\theta_k}$ 的各种“似然程度”。

为了获得最近接真实的参数 ${\theta_1}, {\theta_2}, ..., {\theta_k}$ ，一个很自然的想法就是要在固定住 $X_1, ..., X_n$ 的情况下，使得这个 $L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k)$ 尽可能的大。

定义

$L(X_1, ..., X_n; {\theta_1}^*, {\theta_2}^*, ..., {\theta_k}^*)=\underset{\theta_1,..,\theta_k}{max}L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k) \tag{3.1}$

在公式(3.1)中， ${\theta_1}^*, {\theta_2}^*, ..., {\theta_k}^*$ 就叫做 ${\theta_1,..,\theta_k}$ 的最大似然估计。

$log L(X_1, ..., X_n; {\theta_1}^*, {\theta_2}^*, ..., {\theta_k}^*)=\underset{\theta_1,..,\theta_k}{max} log L(X_1, ..., X_n; \theta_1, \theta_2, ..., \theta_k) \tag{3.2}$
为了计算方便，就左右同时取了对数。需使 $logL$ 达到最大，在 $f$ 对 ${\theta_1,..,\theta_k}$ 存在连续的偏导数时，可以建立方程组（似然方程组）：
$\frac{\partial logL}{\partial \theta_i}=0, i=1,...,k \tag{3.3}$

1.3 贝叶斯估计

假设我们要估计一个参数: $\theta$ ，假设这个 $\theta$ 存在某种概率分布（可以是你自己YY出来的，也可以是根据之前类似的经验得出来的），记为 $h(\theta)$ 。
那么设有总体概率密度 $f(X, \theta)$ ，从总体中抽取出 $X_1, X_2, X_3,...,X_n$ ，则样本的密度为 $f(X_1, \theta)f(X_2 \theta)...f(X_n, \theta)$ ，那么 $(\theta, X_1, X_2, .., X_n)$ 的联合概率密度为：
$h(\theta)·f(X_1, \theta)·f(X_2, \theta)·f(X_3, \theta)···f(X_n, \theta) \tag{4.1}$
先求 $f(X_1, \theta)·f(X_2, \theta)·f(X_3, \theta)···f(X_n, \theta)$ 的边缘概率密度，有
$p(x_1,X_2,...,x_n)=\int h(\theta)·f(X_1, \theta)·f(X_2, \theta)·f(X_3, \theta)···f(X_n, \theta) d(\theta) \tag{4.2}$
（积分上下限看 $\theta$ 的取值范围。）
然后在已知 $X_1, X_2, X_3, ..., X_n$ 的情况下， $\theta$ 的条件概率为：
$h(\theta|x_1,X_2,...,x_n)=\frac {h(\theta)·f(X_1, \theta)·f(X_2, \theta)·f(X_3, \theta)···f(X_n, \theta)}{p(x_1,X_2,...,x_n)} \tag{4.3}$
这个条件密度代表了后验知识，原先的 $h(\theta)$ 代表了先验知识，此后，针对 $\theta$ 的所有统计推断都是基于后验分布。

ps:一般来说 $h(\theta)$ 需要满足 $h(\theta) \geqslant 0$ ，且 $\int h(\theta) =1$ ，若不满足，则称为广义先验密度。

2. 估计量的评选标准

2.1 无偏性

若估计量 $\widehat{\theta}=\widehat{\theta}(X_1, X_2, X_3, ..., X_n)$ 的数学期望 $E(\widehat{\theta})=\theta$ ，则称为无偏估计。

在样本中，将 $S^2$ 作为设 $\sigma^2$ 的估计量。

2.2 有效性

若 $\widehat{\theta}_1=\widehat{\theta}_1(X_1, X_2, X_3, ..., X_n)$ 与 $\widehat{\theta}_2=\widehat{\theta}_2(X_1, X_2, X_3, ..., X_n)$ 相比，有
$\widehat{\theta}_1 \leq D(\widehat{\theta}_2)$
则 $\widehat{\theta}_1$ 比 $\widehat{\theta}_2$ 有效

同一个参数可以用好多中方法进行参数估计，因此涉及一个判断优劣的问题，这就需要为估计量指定优劣准则，进而研究在某种准则下寻找最优估计量的问题。

3. 区间估计

大白话

上述的几个估计方法都属于点估计的范畴，而区间估计则是用一个区间去估计一个参数，换句话说就是把未知的参数值设定在一个界限范围内。例如：估计一个人的年龄，点估计的结果为，这个人可能有33岁；区间估计的结果为，这个人应该在30-35岁之间。

区间估计其实就是找带估计参数的取值范围。这个取值范围需要满足两个条件：

$\theta$ 要很大可能落在这个取值范围内，也就是对于样本 $X_1, ..., X_n$ 而言，有
$P_{\theta}(\widehat{\theta}_1(X_1, ..., X_n)< {\theta} < \widehat{\theta}_2(X_1, ..., X_n)) \tag{3.1}$
尽可能的大。

2.估计的精度要尽可能的高，即 $\widehat{\theta}_2-\widehat{\theta}_1$ 要尽可能的小。

定义

给定一个很小的数 $\alpha$ ，如果有对参数 $\theta$ 的任何值，公式(3.1)的计算结果都等于 $1-\alpha$ ,那么，就称估计区间 $[\widehat{\theta}_1, \widehat{\theta}_2]$ 的置信系数为 $1-\alpha$ 。（OS：对该区间能包含未知参数 $\theta$ 可置信到何种程度）

根据提供的信息：样本均值、样本方差，样本数量以及对应的总体均值和总体方差（虽然有的时候不提供），先确定属于什么样的分布。 $N, \chi^2,t,F$ 其中的一种。已知概率求解对应的参数。

4. 参加文献

极大似然函数的概念

(数理统计基础2)参数估计
符号说明：设有一个统计总体，以表示其概率密度函数（若总体为离散型则为概率函数）。其中，表示任意实数，表示未知的参数...
经典Vs贝叶斯统计对点估计和线性回归理解
一、点估计数理统计有两大基本内容，估计（参数估计；非参数估计，如总体分布）和假设检验（原假设,备择假设）。参数估...
数理统计-参数估计
数理统计的工作是从总体 X 中抽取样本，对总体 X 的分布或某些特性进行分析推断。完全由样本决定的量，称为统计量...
极大似然估计的前提条件
极大似然估计是一种参数估计方法。在数理统计中参数估计有两个方法。矩估计和最大似然估计。矩估计是利用样本统计量与...
概率数理统计七参数估计
一 1矩估计的一个例题泊松分布求这么一个估计量均匀分布 X~N(a，b) E(X)=,D(X)= 均匀分布例子...
重要抽样分布：卡方分布（χ2分布）、t分布和F分布
冒泡~:最近在回顾一些以前学过的概率论和数理统计的知识发现这三个抽样分布经常出现，在参数估计和假设检验也会运用到...
5.1 参数估计的概念及两种估计方法
1. 什么是参数估计参数估计是在样本统计量概率分布的基础上，利用样本的信息推断所关心的总体参数的过程。 ① 基于...
机器学习基础之参数估计
机器学习基础之参数估计一、参数估计对所要研究的随机变量，当它的概率分布的类型已知，但是参数未知，比如服从正太分...
计算机视觉_学习目录
学习目录编程基础：Python 数据基础：线性代数高等数学数理统计视觉库 OpenCv掌握深度学习深...
AI学习笔记之数学基础三（数理统计）
数理统计对已有的数据进行解释，它也是AI领域的重要组成部分。 1. 数理统计的意义：基础的统计理论有助于对机器学...