美文网首页
推断性统计

推断性统计

作者: echolvan | 来源:发表于2020-01-02 23:36 被阅读0次

总体,样本,个体

eg: 我们要研究北京市人口年龄,我们随机抽取了200人,每天都抽取,抽取了一个月。
总体:包含所有的研究样本,在例子中就是所有北京人年龄
样本:在某天统计的200个人
样本容量:总体中抽取的所要考查的元素总称,即样本中个体
个体:某天抽取的某人都是分体

推断统计

通过样本数据推断总体数量特征的方法,它是对样本数据进行描述的基础上,对统计总体的未知数量做出概率形式表述的推断

点估计

点估计就是拿样本统计量去代替总体参数
这里我们使用鸢尾花的花瓣平均长度来估计总体的均值

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import  load_iris
import warnings

sns.set(style='darkgrid')
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')

iris = load_iris()
data = np.concatenate([iris.data, iris.target.reshape(-1,1)], axis=1)
data = pd.DataFrame(data, columns=[*iris.feature_names, 'type'])
print(data['petal length (cm)'].mean())

区间估计

区间估计根据样本的统计量,计算出一个可能的区间和概率,表示总体的参数会有多少概率位于该区间。
区间估计指定的区间为置信区间,区间估计指定的概率我们称为置信度。
点估计与区间估计的区别为:点估计是使用一个值来代替总体参数值,而区间估计是使用一个置信区间与置信度,表示总体参数有多少可能会在该范围内

question:如何才能确定置信区间与置信度呢?

中心极限定理

如果总体均值为u,方差为δ2,我们进行随机抽样样本容量为n,当n增大时,则样本均值趋于正态分布: image.png

这样我们可以得出结论:

  • 进行多次抽样则每次抽样会得到一个均值,这些均值会围绕在总体均值左右,呈正态分布
  • 当样本容量n足够大时,样本均值服从正态分布
    • 样本均值构成的正态分布其均值等于总体均值μ
    • 样本均值构成的正态分布,其标准差等于总体标准差σ除以根号下n
# 总体
all_ = np.random.normal(loc=30, scale=80, size=10000)
# 创建均值数组
mean_arr = np.zeros(2000)
for i in range(len(mean_arr)):
    mean_arr[i] = np.random.choice(all_, size=20, replace=False).mean()
print('样本均值', mean_arr.mean())
print('总体均值', all_.mean())
print('样本标准差', mean_arr.std())
print('总体标准差', all_.std())
print('偏度', pd.Series(mean_arr).skew())
sns.distplot(mean_arr)

样本均值分布下的标准差我们称为标准误差


image.png

在正态分布中数据分布比例如下:

  • 以均值为中心,在一倍标准差内包含约68%的样本数据
  • 以均值为中心,在两倍标准差内包含约95%的样本数据
  • 以均值为中心,在三倍标准差内包含约99.7%的样本数据


    image.png

    那么我们依据中心极限定理,如果多次抽样则样本均值会服从正态分布
    如果对总体一次抽样,则本次抽样个体均值会有95%的概率落在两倍标准差内,那么会有5%的概率落在两倍标准差外,5%的概率是小概率,在一次抽样中基本不会发生。所以如果抽样的个体均值落在两倍标准差之外,我们就可以认为本次抽样来自的总体,该总体的均值并非我们所期望的均值。

我们置信度度为0.95的置信区间就是以均值为中心,正负两倍标准差构成的区间则为置信区间。也就是说我们有95%的信心认为,总体的均值95%的概率会在置信区间之内。

一个案例来说明一下:
工厂抽取了100个螺丝,统计出半径均值为5.1mm,标准差为0.25mm,那么我们工厂所有螺丝的均值可能是多少呢?(95%的置信度)
5.1 加减 (0.25)/根号下100
为什么0.25还要除10,因为样本的标准差足够大,可视为样本的标准差为总体标准差

假设检验概念

假设检验又称为显著性检验,通过样本的统计量来判断与总体的参数之间的差异。我们首先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设是否合理,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1,然后根据样本信息进行分析判断,来选择接受原假设还是备择假设。

P-Value与显著性水平

假设检验用来检验样本的统计量与总体参数是否存在限制性差异。那么多少概率才算显著,这个概率值就是P-Value,这个概率就是支持原假设的概率,因为假设检验中,通常原假设为等值假设,因此P-Value也就代表样本统计量与总体参数无差异的概率,然后我们预先设定一个阈值,这个阈值就是显著性水平α,通常α为0.05,1-α则为置信度。当P-Value的值大于α时,支持原假设,否则拒绝原假设

常用假设检验

z检验

Z检验用于判别样本均值是否与总体均值具有显著性差异,Z检验是通过正态分布的理论来推断差异发生于:

  • 总体呈正态分布
  • 总体方差已知
  • 样容量较大
image.png
为样本均值
μ为带检验的总体均值
为总体的标准差
n为样本容量

t检验

t检验与z检验类似,用来判断样本均值是否与总体均值具有显著性差异。不过t检验是基于t分布的,t检验适用于:

  • 总体呈正态分布
  • 总体方差未知
  • 样本数量较少 (<30)
    t = \frac{\overline{x} - μ_0}{S_\overline{x}} = \frac{\overline{x} - μ_0}{S/\sqrt{n}}
  • \overline{x}为一次抽样中所有个体的均值
  • \mu_0为等待检验的总体均值
  • S_\overline{x}为样本均值的标准差
  • S为一次抽样中个体的标准差
  • n为样本容量

不过随着样本容量的增大t分布逐渐接近正态分布,此时就近似于z检验了。

相关文章

  • 推断性统计

    总体,样本,个体 eg: 我们要研究北京市人口年龄,我们随机抽取了200人,每天都抽取,抽取了一个月。总体:包含所...

  • 【小火杂谈】描述性统计的深入分析

    描述性统计是:报告数据、不做任何分析,不做任何猜测。 推断统计学:推断统计学建立到样本的基础上,作出推断。定量数据...

  • 概率

    统计学分为描述性统计和推断统计。推断统计是指通过样本数据对总体特征作出推断,它有3个要素:1.随机观测的样本数据;...

  • 统计学基础9-点估计和区间估计

    一. 点估计 1.1 统计学推断 之前学习的都是描述性统计学,现在学习的是推断统计学,从样本反推总体。 1.2 样...

  • 推断统计(2) - 抽样理论

    推断性统计学是用样本(历史数据)的估计量(离散型或连续型)推断总体(将来)的对应的参数值(离散型或连续型)。推断性...

  • 假设检验之概念篇

    一、几个概念 1、统计推断 由样本信息对相应总体的特征进行推断称为统计推断, 简言之,由样本推断总体的方法称为统计...

  • 统计中的假设检验

    推断统计的概念 推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容:参数估计,即利用样本信息推断...

  • 统计推断

    一、单样本假设检验:对单一的母体参数进行检验假设检验步骤:1.根据实际情况提出原假设和备择假设;2.根据假设的特征...

  • 深度学习之路

    一.概率论与统计推断 概率论与统计推断(一) ------ 概率论的基本概念概率论与统计推断(二) ------ ...

  • 统计学的基本概念

    统计学可以从有限数据中得出一般结论。 推断统计学的全部要点是从有限的数据中推断出一个一般结论。“描述性统计学”只是...

网友评论

      本文标题:推断性统计

      本文链接:https://www.haomeiwen.com/subject/urmooctx.html