总体,样本,个体
eg: 我们要研究北京市人口年龄,我们随机抽取了200人,每天都抽取,抽取了一个月。
总体:包含所有的研究样本,在例子中就是所有北京人年龄
样本:在某天统计的200个人
样本容量:总体中抽取的所要考查的元素总称,即样本中个体
个体:某天抽取的某人都是分体
推断统计
通过样本数据推断总体数量特征的方法,它是对样本数据进行描述的基础上,对统计总体的未知数量做出概率形式表述的推断
点估计
点估计就是拿样本统计量去代替总体参数
这里我们使用鸢尾花的花瓣平均长度来估计总体的均值
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
import warnings
sns.set(style='darkgrid')
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')
iris = load_iris()
data = np.concatenate([iris.data, iris.target.reshape(-1,1)], axis=1)
data = pd.DataFrame(data, columns=[*iris.feature_names, 'type'])
print(data['petal length (cm)'].mean())
区间估计
区间估计根据样本的统计量,计算出一个可能的区间和概率,表示总体的参数会有多少概率位于该区间。
区间估计指定的区间为置信区间,区间估计指定的概率我们称为置信度。
点估计与区间估计的区别为:点估计是使用一个值来代替总体参数值,而区间估计是使用一个置信区间与置信度,表示总体参数有多少可能会在该范围内
question:如何才能确定置信区间与置信度呢?
中心极限定理
如果总体均值为u,方差为δ2,我们进行随机抽样样本容量为n,当n增大时,则样本均值趋于正态分布:![](https://img.haomeiwen.com/i11346836/953a16d2163b99db.png)
这样我们可以得出结论:
- 进行多次抽样则每次抽样会得到一个均值,这些均值会围绕在总体均值左右,呈正态分布
- 当样本容量n足够大时,样本均值服从正态分布
- 样本均值构成的正态分布其均值等于总体均值μ
- 样本均值构成的正态分布,其标准差等于总体标准差σ除以根号下n
# 总体
all_ = np.random.normal(loc=30, scale=80, size=10000)
# 创建均值数组
mean_arr = np.zeros(2000)
for i in range(len(mean_arr)):
mean_arr[i] = np.random.choice(all_, size=20, replace=False).mean()
print('样本均值', mean_arr.mean())
print('总体均值', all_.mean())
print('样本标准差', mean_arr.std())
print('总体标准差', all_.std())
print('偏度', pd.Series(mean_arr).skew())
sns.distplot(mean_arr)
样本均值分布下的标准差我们称为标准误差
![](https://img.haomeiwen.com/i11346836/21828074b49c4593.png)
在正态分布中数据分布比例如下:
- 以均值为中心,在一倍标准差内包含约68%的样本数据
- 以均值为中心,在两倍标准差内包含约95%的样本数据
-
以均值为中心,在三倍标准差内包含约99.7%的样本数据
image.png
那么我们依据中心极限定理,如果多次抽样则样本均值会服从正态分布
如果对总体一次抽样,则本次抽样个体均值会有95%的概率落在两倍标准差内,那么会有5%的概率落在两倍标准差外,5%的概率是小概率,在一次抽样中基本不会发生。所以如果抽样的个体均值落在两倍标准差之外,我们就可以认为本次抽样来自的总体,该总体的均值并非我们所期望的均值。
我们置信度度为0.95的置信区间就是以均值为中心,正负两倍标准差构成的区间则为置信区间。也就是说我们有95%的信心认为,总体的均值95%的概率会在置信区间之内。
一个案例来说明一下:
工厂抽取了100个螺丝,统计出半径均值为5.1mm,标准差为0.25mm,那么我们工厂所有螺丝的均值可能是多少呢?(95%的置信度)
5.1 加减 (0.25)/根号下100
为什么0.25还要除10,因为样本的标准差足够大,可视为样本的标准差为总体标准差
假设检验概念
假设检验又称为显著性检验,通过样本的统计量来判断与总体的参数之间的差异。我们首先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设是否合理,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1,然后根据样本信息进行分析判断,来选择接受原假设还是备择假设。
P-Value与显著性水平
假设检验用来检验样本的统计量与总体参数是否存在限制性差异。那么多少概率才算显著,这个概率值就是P-Value,这个概率就是支持原假设的概率,因为假设检验中,通常原假设为等值假设,因此P-Value也就代表样本统计量与总体参数无差异的概率,然后我们预先设定一个阈值,这个阈值就是显著性水平α,通常α为0.05,1-α则为置信度。当P-Value的值大于α时,支持原假设,否则拒绝原假设
常用假设检验
z检验
Z检验用于判别样本均值是否与总体均值具有显著性差异,Z检验是通过正态分布的理论来推断差异发生于:
- 总体呈正态分布
- 总体方差已知
- 样容量较大
![](https://img.haomeiwen.com/i11346836/7356834763c72c29.png)
为样本均值
μ为带检验的总体均值
为总体的标准差
n为样本容量
t检验
t检验与z检验类似,用来判断样本均值是否与总体均值具有显著性差异。不过t检验是基于t分布的,t检验适用于:
- 总体呈正态分布
- 总体方差未知
- 样本数量较少 (<30)
-
为一次抽样中所有个体的均值
-
为等待检验的总体均值
-
为样本均值的标准差
- S为一次抽样中个体的标准差
- n为样本容量
不过随着样本容量的增大t分布逐渐接近正态分布,此时就近似于z检验了。
网友评论