推断性统计

作者: echolvan | 来源:发表于2020-01-02 23:36 被阅读0次

推断性统计
【小火杂谈】描述性统计的深入分析
概率
统计学基础9-点估计和区间估计
推断统计(2) - 抽样理论
假设检验之概念篇
统计中的假设检验
统计推断
深度学习之路
统计学的基本概念

总体，样本，个体

eg: 我们要研究北京市人口年龄，我们随机抽取了200人，每天都抽取，抽取了一个月。
总体：包含所有的研究样本，在例子中就是所有北京人年龄
样本：在某天统计的200个人
样本容量：总体中抽取的所要考查的元素总称，即样本中个体
个体：某天抽取的某人都是分体

推断统计

通过样本数据推断总体数量特征的方法，它是对样本数据进行描述的基础上，对统计总体的未知数量做出概率形式表述的推断

点估计

点估计就是拿样本统计量去代替总体参数
这里我们使用鸢尾花的花瓣平均长度来估计总体的均值

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import  load_iris
import warnings

sns.set(style='darkgrid')
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')

iris = load_iris()
data = np.concatenate([iris.data, iris.target.reshape(-1,1)], axis=1)
data = pd.DataFrame(data, columns=[*iris.feature_names, 'type'])
print(data['petal length (cm)'].mean())

区间估计

区间估计根据样本的统计量，计算出一个可能的区间和概率，表示总体的参数会有多少概率位于该区间。
区间估计指定的区间为置信区间，区间估计指定的概率我们称为置信度。
点估计与区间估计的区别为：点估计是使用一个值来代替总体参数值，而区间估计是使用一个置信区间与置信度，表示总体参数有多少可能会在该范围内

question：如何才能确定置信区间与置信度呢？

中心极限定理

如果总体均值为u,方差为δ2，我们进行随机抽样样本容量为n，当n增大时，则样本均值趋于正态分布：

image.png

这样我们可以得出结论：

进行多次抽样则每次抽样会得到一个均值，这些均值会围绕在总体均值左右，呈正态分布
当样本容量n足够大时，样本均值服从正态分布
- 样本均值构成的正态分布其均值等于总体均值μ
- 样本均值构成的正态分布，其标准差等于总体标准差σ除以根号下n

# 总体
all_ = np.random.normal(loc=30, scale=80, size=10000)
# 创建均值数组
mean_arr = np.zeros(2000)
for i in range(len(mean_arr)):
    mean_arr[i] = np.random.choice(all_, size=20, replace=False).mean()
print('样本均值', mean_arr.mean())
print('总体均值', all_.mean())
print('样本标准差', mean_arr.std())
print('总体标准差', all_.std())
print('偏度', pd.Series(mean_arr).skew())
sns.distplot(mean_arr)

样本均值分布下的标准差我们称为标准误差

image.png

在正态分布中数据分布比例如下：

以均值为中心，在一倍标准差内包含约68%的样本数据
以均值为中心，在两倍标准差内包含约95%的样本数据
以均值为中心，在三倍标准差内包含约99.7%的样本数据

image.png

那么我们依据中心极限定理，如果多次抽样则样本均值会服从正态分布
如果对总体一次抽样，则本次抽样个体均值会有95%的概率落在两倍标准差内，那么会有5%的概率落在两倍标准差外，5%的概率是小概率，在一次抽样中基本不会发生。所以如果抽样的个体均值落在两倍标准差之外，我们就可以认为本次抽样来自的总体，该总体的均值并非我们所期望的均值。

我们置信度度为0.95的置信区间就是以均值为中心，正负两倍标准差构成的区间则为置信区间。也就是说我们有95%的信心认为，总体的均值95%的概率会在置信区间之内。

一个案例来说明一下：
工厂抽取了100个螺丝，统计出半径均值为5.1mm，标准差为0.25mm，那么我们工厂所有螺丝的均值可能是多少呢？（95%的置信度）
5.1 加减（0.25）/根号下100
为什么0.25还要除10，因为样本的标准差足够大，可视为样本的标准差为总体标准差

假设检验概念

假设检验又称为显著性检验，通过样本的统计量来判断与总体的参数之间的差异。我们首先对总体参数进行一定的假设，然后通过收集到的数据，来验证我们之前作出的假设是否合理，我们会建立两个完全对立的假设，分别为原假设H0与备择假设H1,然后根据样本信息进行分析判断，来选择接受原假设还是备择假设。

P-Value与显著性水平

假设检验用来检验样本的统计量与总体参数是否存在限制性差异。那么多少概率才算显著，这个概率值就是P-Value,这个概率就是支持原假设的概率，因为假设检验中，通常原假设为等值假设，因此P-Value也就代表样本统计量与总体参数无差异的概率，然后我们预先设定一个阈值，这个阈值就是显著性水平α，通常α为0.05，1-α则为置信度。当P-Value的值大于α时，支持原假设，否则拒绝原假设

常用假设检验

z检验

Z检验用于判别样本均值是否与总体均值具有显著性差异，Z检验是通过正态分布的理论来推断差异发生于：

总体呈正态分布
总体方差已知
样容量较大

image.png
为样本均值
μ为带检验的总体均值
为总体的标准差
n为样本容量

t检验

t检验与z检验类似，用来判断样本均值是否与总体均值具有显著性差异。不过t检验是基于t分布的，t检验适用于：

总体呈正态分布
总体方差未知
样本数量较少（<30）
$t = \frac{\overline{x} - μ_0}{S_\overline{x}} = \frac{\overline{x} - μ_0}{S/\sqrt{n}}$
$\overline{x}$ 为一次抽样中所有个体的均值
$\mu_0$ 为等待检验的总体均值
$S_\overline{x}$ 为样本均值的标准差
S为一次抽样中个体的标准差
n为样本容量