美文网首页
統計學(Statistical)重點整理-5

統計學(Statistical)重點整理-5

作者: RJ阿杰 | 来源:发表于2018-09-03 17:09 被阅读0次

    課程連結:
    台灣交通大學 統計學(一) Statistics I 唐麗英老師

    [統計學筆記及整理]



    第六章(續) 抽樣分佈(Sampling Distributions )

    抽樣分佈(Sampling Distributions)

    • 回顧:參數與統計量(Parameter and statistic)
      根據群體中的觀察計算的數量稱為參數。
      根據樣本中的觀察計算的數量稱為統計量。

    • Def : Sampling Distribution 抽樣分佈
      當從給定群體重複抽取(會放回即可重複)大小為n的隨機樣本時得到的統計量的概率分佈稱為統計量的抽樣分佈。

    • 例:
      樣本均值\overline{X}的分佈是一種抽樣分佈。
      樣本比例\widehat{p}的分佈是另一種抽樣分佈。

    利用蒙地卡羅模擬法模擬抽樣分佈(Approximating a Sampling Distribution by Monte Carlo Simulation)

    • 例1:
      模擬樣本均值的抽樣分佈

      對於從圖6.12所示的均勻概率分佈中抽取的n = 5個觀測樣本。 注意,均勻分佈的平均值μ= 0.5。 對n = 15,25,50和100重複該過程。
    • 模擬程序
      使用Minitab從均勻概率分佈中獲得10,000個大小為n = 5的隨機樣本,在區間(0,1)上,並為每個樣本計算𝐘。 然後,繪製10,000的values值的直方圖。 對n = 15,25,50和100重複該過程。

    • 統一均值(0,1)的模擬抽樣分佈

    • 基於均勻分佈的獨立隨機樣本的\overline{X}的模擬採樣分佈的直方圖接近正態分佈。 請注意:
      1)\overline{X}的值傾向於聚集(群聚)關於均勻分佈的均值。
      2)隨著樣本量n的增加,\overline{X}的採樣分佈變化較小,\overline{X}的抽樣分佈形狀傾向於正態分佈的形狀。

    • 例2:
      基於指數分佈的獨立隨機樣本的\overline{X}的模擬採樣分佈的直方圖接近正態分佈。其餘結論與上例相同。

    • 指數均值的模擬抽樣分佈(β= 1)



    • 例3:
      基於正態分佈的獨立隨機樣本,\overline{X}的模擬抽樣分佈的直方圖接近正態分佈。其餘結論與上例相同。

    • 正態均值(0,1)的模擬抽樣分佈

    抽樣分布的特性與樣本平均數(The Sampling Distributions of Means and Sums)

    1)樣本均值的抽樣分佈是什麼,\overline{X}(當σ已知時)?統計\overline{X}在重複採樣中的表現如何?

    • 例1:
      1)假設一個群體由四個數字組成(N = 4):1,2,3,4
      2)由於四個值是不同的,群體概率分佈為群體中的每個x值賦予1/4的相等概率。

    • 步驟1:現在,從群體中取一個大小為2的隨機樣本。 有多少可能的樣品?

    • 步驟2:現在構建樣本均值\overline{X}的概率分佈


      對於\overline{X}的概率分佈,樣本均值\overline{X}的均值和样本均值\overline{X}的方差為:
      μ_\overline{X} = 2.5
      {σ_\overline{X}}^2= 6.875-6.25 = 0.625 = \frac{σ^2}{2}=\frac{σ^2}{n}
    • 結論:
      1)μ_\overline{X}=μ
      2){σ_\overline{X}}^2 = {\frac{σ^2}{n}},σ_{\overline{X}}\ =\frac{σ}{\sqrt{n}},其中n是樣本大小。
      3)原始種群的分佈無論是否為常態,大部分樣本均值的分佈接近正態分佈。

    • The Central Limit Theorem (C.L.T.) 中央極限定理
      如果從具有平均μ和標準偏差σ的總體中抽取n個觀測值的隨機樣本,則當n大(n≥30)時,\overline{X}的採樣分佈近似正態分佈為μ_\overline{X}=μ,並且σ_{\overline{X}}\ =\frac{σ}{\sqrt{n}}

      隨著n變大,近似將變得越來越準確。
      備註:如果群體是常態的,那麼無論樣本大小(n)如何,樣本均值\overline{X}的分佈總是常態的。
    • 例1:假設X遵循均值μ= 10且方差σ^2= 4的分佈。 從該群體中抽取大小為25的樣本。 \overline{X}的分佈是什麼?

    • 例2:某品牌維生素的平均維生素B-2含量為30毫克,標準偏差為2毫克。 質量控制檢查員選擇36個藥丸進行測試。 這36粒藥丸的平均維生素B-2含量低於28毫克的概率是多少?

    根據中央極限定理,n=36,\overline{X}非常近似常態分怖。


    \overline{X}低於28的概率為:
    σ_{\overline{X}}\ =\frac{σ}{\sqrt{n}}=\frac{2}{\sqrt{36}}=\frac{2}{6}=\frac{1}{3}
    P(X<28)=P(Z<\frac{28-30}{\frac{1}{3}})=P\left(Z<-6\right)=0.5 - 0.4999 {\approx} 0
    • 例3:如果1加侖的某種油漆覆蓋平均513.3平方英尺,標準偏差為31.5平方英尺,那麼這些1加侖罐中的40個樣品所覆蓋的平均面積"從510.0到520.0平方英尺"的概率是多少?

    σ_{\overline{X}}\ =\frac{σ}{\sqrt{n}}=\frac{31.5}{\sqrt{40}}=4.98
    P(510<\overline{X}<520)=P(\frac{510-513.3}{4.98}<Z<\frac{520-513.3}{4.98})=P\left(-0.66<Z<1.35\right)
    = 0.2454 + 0.4115 {\approx} 0.6569

    • 樣本比例的抽樣分佈是什麼,\widehat{p}
      1)p:群體比例
      2)\widehat{p}:樣本比例 = x / n =成功次數/總試驗次數

    • 定理:\widehat{p}的採樣分佈
      當樣本量n很大時,\widehat{p}的採樣分佈近似正態,平均值為p,標準差為\sqrt{\frac{pq}{n}}

    • 例4:製造公司的生產線生產10%的缺陷產品。 如果採樣n = 64項,那麼樣本缺陷率低於8%的概率是多少?

    p=0.1=\widehat{p},n=64,q=0.9,σ_\widehat{p}=\sqrt{\frac{pq}{n}}=\sqrt{\frac{0.1\cdot0.9}{64}}=0.0375
    P(\widehat{p}<0.08)=P(Z<\frac{0.08-0.1}{0.0375})=P\left(Z<-0.534\right)
    0.5-0.2019 {\approx} 0.2981

    • 定理:正態隨機變量和的採樣分佈
    • 例: 假設您選擇來自兩個常態群體的獨立隨機樣本,n_1的觀察來自群體1n_2的觀察來自群體2。如果群體12的均值和方差分別是(μ_1,{σ_1}^2)(μ_1,{σ_2}^2),並且如果\overline{Y}_1\overline{Y}_2是相應的樣本均值,找出差值的分佈(\overline{Y}_1-\overline{Y}_2)。

    解:

    2)樣本均值的採樣分佈是什麼,\overline{X}(當σ未知時)?

    • 定理:如果\overline{X}是取自具有平均μ和方差σ^2的正態分佈群體,大小為n的隨機樣本的平均值,則樣本統計量

      具有自由度為ν = n-1的T分佈,s=樣本標準差,s^2=樣本變異數
      s=樣本標準差取的n越大s(μ_s,σ_s)μ_s越接近σ
      注意:T分佈也稱為“學生T分佈”
    • 什麼是“學生”T分佈?
      T統計量的概率分佈首次發表於1908年,由W.S.撰寫。戈塞特。 當時,Gosset受僱於愛釀酒廠,該釀酒廠不允許其員工發表研究報告。 為了規避這一限制,他以“學生”的名義秘密出版了他的作品。 因此,T的分佈通常稱為學生的T分佈,或簡稱為T分佈。

    • T分佈的屬性:T分佈非常像Z分佈

    • T分佈和Z分佈的比較
      1)兩者都是對稱的,鐘形的。
      2)兩者的平均值為0。
      3)在重複採樣中T比Z更可變。(T分佈的尾部有更多的區域,中間的Z分佈更高)。
      4)作為d.f.的數量 當沒有限制地增加(即,當n增加)時,T分佈接近Z分佈。

    • 什麼是自由度(Degree of Freedom,d.f.)?
      我們使用自由度作為樣本信息的度量。
      例如,我們說T統計量具有自由度n-1,群體的參數σ的自由度為n

    • 為什麼?
      在正態分佈的大小為n的隨機樣本中存在n個自由度或獨立信息。
      在計算\large{T =\frac{\overline{X}-μ}{\frac{s}{\sqrt{n}}}}時,我們不知道σ並且需要使用樣本數據來估計σ。當數據(樣本中的值)用於計算用於獲得s^2=\sum_{i=1}^n\frac{\left(x_i-\overline{X}^2\right)}{n-1}的平均值\overline{X}時,用於估計σ^2的信息中的自由度減少1

    • T分配表

    • 例1:當α= 0.05n = 6時,找到t_αt_{α/2}

    • 例2:當α= 0.01n = 20時,找到t_αt_{α/2}

    • 例3:當α= 0.10n = 42時,找到t_αt_{α/2}

    正態分佈相關的抽樣分佈(The Sampling Distributions Related to the Normal Distribution)

    1. \chi^2 - 分佈(卡方分佈)
      如果s^2是取自具有方差σ^2的正態分佈群體的大小為n的隨機樣本的方差,則

      有一個(希臘字母,Chi)分佈與 d.f. =ν= n-1
    • 表給出了在αd.f的各種值的\chi^2分佈的上尾部中α的區域的值。

    • 例1:如果n = 20,請使用表確定\chi_{0.05}^2=?

    • 例2: 考慮一個生產8盎司加工玉米罐頭的罐頭廠。
      當每罐填充量的真實變化σ^2小於0.0025時,質量控制工程師已確定過程正常運行。
      從一天的生產中選擇n = 10罐的隨機樣品,並記錄每個罐的填充量(以盎司為單位)。
      關心的是樣本方差,s^2。 實際上,如果σ^2= 0.001,則發現s^2超過0.0025的概率。假設填充量是正態分佈的。

    我們想要計算P(s^2> 0.0025)。 假設從正態分佈中選擇10個填充量的樣本。


    具有ν=(n-1)自由度的卡方概率分佈。因此,我們尋求的概率可以寫成

    因此,當真實總體方差σ^2等於0.001時,樣本填充量的方差超過0.0025的概率很小(在0.005和0.01之間)。
    1. T分佈
      定義:設Z為標準正態隨機變量,\chi^2為具有自由度ν的卡方隨機變量

      具有ν分子d.f(分子自由度)和 ν_2分母d.f.(分母自由度)的T分佈。
    • 定理:如果X是取自具有平均μ和方差σ^2的正態分佈群體的大小為n的隨機樣本的平均值,則樣本統計量

      具有自由度(d.f.)(自由度)ν= n-1T分佈
    • 例3:假設隨機變量\overline{Y}s^2是來自具有平均μ和方差σ^2的正態分佈群體的n個觀測值的隨機樣本的均值和方差。 可以證明,當採樣總體具有正態分佈時,\overline{Y}s^2在統計上是獨立的。 使用此結果顯示

      具有ν=(n-1)自由度的T分佈。
    1. F分佈
      定義:設{{\chi}_1}^2{{\chi}_2}^2分別為兩個獨立的卡方隨機變量,其中ν_1ν_2自由度分別為
      具有ν_1分子d.fF分佈。 (分子自由度)和ν_2分母d.f.(分母自由度)
    • 定理:如果{s_1}^2{s_2}^2是大小為n_1的隨機樣本和取自兩個具有相同方差的正態總體的n_2的方差,那麼


      具有d.f. =ν_1,ν_2 = n_1-1,n_2-1的F分佈。
    • F分佈表
      表給出了F_α的值,其對於αd.f的各種值,在F分佈的上尾部中定位α的區域。

    • 例:如果n_1 = 7,n_2 = 13,使用表確定F_{.01} =?

    相关文章

      网友评论

          本文标题:統計學(Statistical)重點整理-5

          本文链接:https://www.haomeiwen.com/subject/gapdwftx.html