数理统计的直观理解
数理统计学存在的意义:
某工厂生产了大批的电子元件,一般来说,假定该电子元件的寿命服从指数分布,那么,有两个问题:
a. 元件的平均寿命如何?
b. 我要求平均寿命超过=5000小时,能不能在这家工厂购买元件?
指数分布的概率函数为
指数函数的分布函数为:
若我们知道该分布的的值,则可以很轻松的知道上述两个问题的答案,但是,通产情况下,的值是不知道的,这个时候我们只好随机抽取进行质量检测。从一大批元件中抽出若干个(个),并测出其寿命。
那么,简单来说,上面这段话总结为下列两个问题:
- 这个元件怎么选?(随机选,保证每一件都有同等的机会被选出)
- 选取之后该如何做?
有了数据之后,一个很自然的想法是用算数平均值去逼近其平均寿命。当然,不一定等于
new question is:
- 与的误差有多大?
- 产生指定大小误差的概率有多大?
- 把这个概率减少到一定程度,需要抽取的是多少?
问题 a. 元件的平均寿命如何?
(参数估计问题)
b. 我要求平均寿命超过=5000小时,能不能在这家工厂购买元件?
(假设检验问题)
似乎第一个问题解决了,第二个问题也就能够解决了,但是,因为与平均寿命存在一定误差,我们需要根据实际值进行调整,我们把接受标准定为, 若取的大些,说明检验更加严格;小一些,则检验更宽松,但是,在理论上,多出可能有两个错误:寿命达到需求,但是被拒收了;寿命未达到需求但是被接受了。这两种错误都有一定的概率,很大程度上取决于中的选择。
参数估计问题和参数检验的区别在于:参数检验不要求对分布中的未知参数进行估计,而是要在两个决定之间选一个。
基本术语:
总体
研究对象的所有集合。其实就是一种分布。当参数未知时,如上述元件的参数未知,则可以说为是概率分布族。
样本
按照一定规定从总体中抽取出来的一部分个体。所得的样本表现为若干个数据,,其中称为样本大小或样本容量
统计量
完全由样本决定的量,叫做统计量(只依赖于样本,不依赖于总体分布中其他的未知参数)
样本均值与样本方差
样本均值:
样本方差:
注意,二阶中心矩与样本方差只差一个常数因子:
为什么说分母为而不是?
image.png自由度的另一种说法
一共有个样本,对应个自由度,用估计方差,自由度本来应该为,但是总体均值未知,用去估计,用掉了一个自由度。因此就只有了。
网友评论