美文网首页解密大数据
解密大数据课程作业-正态分布的应用

解密大数据课程作业-正态分布的应用

作者: 游遍星辰99 | 来源:发表于2017-03-28 15:51 被阅读270次

    作业思路

    习题1:投掷N枚硬币,正面出现57次,尝试通过计算回答,假设N=100枚,要舍弃还是接受?
    tips:投掷N枚硬币的数据近似于均值为N/2,S.D.为sqrt(N)/2的正态分布。

    假设95%的置信区间是可接受的,若57被包含在该区间中,则接受,否则舍弃
    μ=N/2=50,σ=sqrt(N)/2=5
    代入方程 1.96 ≤ (X - μ)/ σ ≤ +1.96,解方程得95%的置信区间。

    习题2:随机抽样30个GRE成绩,平均分数为1082分,标准差为108分,决定下列参数的95%和99%置信区间。
    1)总体均值
    2)总体标准差

    刚开始看到题目,我也有点发蒙,均值和标准差不是已经知道了么,还要怎么求呢?google了一会,才明白已知的均值和标准差只是局部的,基于当前抽样的,不能等同于总体的。现在是要从局部推导总体,把总体均值和总体标准差都看做是变量,求它们的95%和99%的置信区间。

    我们都知道,如果X服从正态分布,则有1.96 ≤ (X - μ)/ σ ≤ +1.96 的区间概率为95%。

    • 求总体均值的置信区间
      问题转化为,求出总体均值的均值,总体均值的标准差,代入上述方程,便可获得总体均值的95%置信区间。

    设μμ为该总体均值的均值,σμ为总体均值的标准差,这两个值怎么求呢?
    μμ用抽样得出的均值代替。作业中的抽样均值为1082.

    根据总体平均数的估计中的公式,σμ的求法分为两种情况:

    1. 当总体标准差σ已知时,σμ=σ/sqrt(N)
    2. 当总体标准差σ未知时,无偏估计:σμ=S/sqrt(N),有偏估计:σμ=S/sqrt(N-1)。S为样本的标准差。

    作业中的总体标准差未知,采用有偏估计σμ=S/sqrt(N-1)=108/sqrt(30-1)

    代入前面的方程

    -1.96 ≤ (X - 1082)/ (108/sqrt(30-1) )≤ 1.96 ,解方程得95%置信区间

    同理,求总体均值99%的置信区间,解方程
    2.576 ≤ (X - 1082)/ (108/sqrt(30-1) )≤ 2.576

    • 求总体标准差的置信区间
      问题转化为,求出总体标准差的均值,总体标准差的标准差,代入上述方程
      设μσ为总体标准差的均值,σσ为总体标准差的标准差,这两个值怎么求呢?
      根据 标准差与方差的区间估计 ,当样本容量n>30时,样本标准差的分布渐近正态分布,
      由该文中的公式可知:
      μσ=抽样的标准差。作业中的抽样标准差为108。
      σσ=S/sqrt(2N),S为抽样标准差即108.

    代入得方程
    -1.96 ≤ (X - 108)/ (108/sqrt(2*30) )≤ 1.96 ,解方程得95%的置信区间置信区间

    -2.576 ≤ (X - 108)/ (108/sqrt(2*30) )≤ 1.96,解方程得99%的置信区间置信区间为

    还有一种方法是求方差的置信区间,再开平方,用的是卡方分布。具体见 标准差与方差的区间估计

    1.以上解法,是基于一定的前提:若分布X服从正态分布,则其均值和标准差也服从正态分布。否则应该是不能这样做的。
    2.根据标准差与方差的区间估计,在总体方差未知时,样本平均数的分布为t分布,所以应该要查t值表。
    但我不知道如果已知总体分布是正态分布,是不是可以用正态表的值比如1.96?
    3.两个参数为什么可以用这样的公式求得,我也不清楚,暂且理解为用一系列数学公式推导出来的,统计学还得继续看……

    写完才看到石头同学的作业,推导专业多了。看了小密圈里其他同学的作业,我的总体标准差的区间和大家的出入比较大,同学们是先通过卡方分布求总体方差,再求标准差。但我看到标准差与方差的区间估计中的 例1也是这样求的,是做法的不同,还是我的理解是错误的?

    用ipython 求方程的解

    import sympy #导入sympy库,用于数学计算
    
    x = sympy.Symbol('x') #将x转换成符号,才能用在后面的方程中
    
    sympy.solve(x * 2 - 4, x) #以一个简单线性方程为例,第一个参数为要解的方程,要求右端等于0,第二个参数为要解的未知数。解为2。
    
    [2]
    

    习题1:求解方程1.96 ≤ (X - μ)/ σ ≤ +1.96,μ=N/2=50,σ=sqrt(N)/2=5

    sympy.solve((x - 50)/5+1.96,x)
    
    [40.2000000000000]
    
    sympy.solve((x - 50)/5-1.96,x)
    
    [59.8000000000000]
    

    置信区间为[40.2,59.80],所以57是可以接受的

    习题2:求总体均值的95%置信区间

    sympy.solve((x - 1082)/ (108/(30-1)**0.5)+1.96,x) #求总体均值95%的置信区间
    
    [1042.69201081468]
    
    sympy.solve((x - 1082)/ (108/(30-1)**0.5)-1.96,x)
    
    [1121.30798918532]
    

    置信区间为[1042.69,1121.3]

    习题2:求总体均值的99%置信区间

    sympy.solve((x - 1082)/ (108/(30-1)**0.5)+2.576,x)
    
    [1030.33807135644]
    
    sympy.solve((x - 1082)/ (108/(30-1)**0.5)-2.576,x)
    
    [1133.66192864356]
    

    置信区间为[1030.33,1133.66]

    习题2:求总体标准差的95%置信区间

    sympy.solve((x - 108)/ (108/(2*30)**0.5)+1.96,x)
    
    [80.6722295091604]
    
    sympy.solve((x - 108)/ (108/(2*30)**0.5)-1.96,x)
    
    [135.327770490839]
    

    置信区间为[80.67,135.32]

    习题2:求总体标准差的99%置信区间

    sympy.solve((x - 108)/ (108/(2*30)**0.5)+2.576,x)
    
    [72.0835016406109]
    
    sympy.solve((x - 108)/ (108/(2*30)**0.5)-2.576,x)
    
    [143.916498359389]
    

    置信区间为 [72.08,143.91]

    
    

    相关文章

      网友评论

        本文标题:解密大数据课程作业-正态分布的应用

        本文链接:https://www.haomeiwen.com/subject/ombjottx.html