美文网首页
统计思维导图与常用公式

统计思维导图与常用公式

作者: 了不起的树懒 | 来源:发表于2019-01-07 20:11 被阅读0次

数据的概括性度量

  • 集中趋势的度量
    众数(mode):一组数据中出现次数最多的变量(EXCEL函数:MODE(number1,number2,……)。
    中位数(median):一组数据排序后处于中间位置上的变量,中位数位置=(n+1)/2(EXCEL函数:MEDIAN(number1,number2,……)。
    四分位数(quartile):一组数据排序后处于25%和75%位置上的值,QL位置=\frac{n}{4}
    ,QU位置=\frac{3n}{4}(EXCEL函数:QUARTILE(array,quart))。
    平均数(mean):一组数据相加后处于数据个数得到的结果。
      简单平均数(simple mean):\overline{x}=\frac{\sum_{i=0}^n x_i}{n}
      加权平均数(weighted mean):\overline{x}=\frac{\sum_{i=0}^n M_i f_i}{n}M_if_i:权重与频数的乘积)
      几何平均数(geometric mean):G=\sqrt[n]{\prod_{i=1}^n x_i} (GEOMEAN(number1,number2,……))

  • 离散趋势的度量
    异众比率(variation ration):值非众数组的频数占总频数的比例。V_r=1-\frac{f_m}{\sum f_i}(\sum f_i为变量值的总频数,f_m为众数组的频数)
    四分位差(quartile deviation):也称内距或四分位距,它是上四分位分数与下四分位分数之差。Q_d=Q_U-Q_L
    方差(variance):各变量值预期平均数离差平方的平均数。s^2=\frac{\sum_{i=1}^n (x_i-\overline{x})}{n-1}
    标准差(standard deviation):方差的平方根。
    离散系数(coefficient of variation):一组数据的标准差与其相应的平均数之比。v_s=\frac{s}{\overline{x}}

  • 偏态与峰态的度量
    偏态(skewness):它是对数据分布对称性的测度。
    偏态系数(coefficient of skewness)SK=\frac{n\sum(x_i-\overline{x})^3}{(n-1)(n-2)^3},s_3是样本标准差的三次方。(EXCEL函数:SKEW(number1,number2,……),样本数少于3个或者标准差为0,则返回错误值#DIV/0!)
      偏态的强度:1.偏态系数=0,数据的分布是对称的;
            2.偏态系数>1或者<-1,高度偏态分布;
            3.偏态系数位于[0.5,1]或者[-1,-0.5],中等偏态分布。
      偏态的方向判断:1.SK为正值时,正离差值较大,正偏或者右偏;
              2.SK为负值时,负离差值较大,负偏或者左偏。

峰态(kurtosis):它是对数据分布平峰或尖峰程度的测度。
峰态系数(coefficient of kurtosis)K=\frac{\sum_{i=1}^k(M_i-\overline{x})^4f_i}{ns^4}-3,s^4是样本标准差的四次方。(EXCEL函数:KUPT(number1,number2,……),样本数少于4个或者标准差为0,则返回错误值#DIV/0!)
   峰态的测度:1.K=0,正态分布;
         2.K>0,尖峰分布,数据的分布更集中;
         3.K<0,扁平分布,数据的分布更分散。

统计量及其抽样分布

  • 中心极限定理(central limit theorem)
    设从均值为μ、方差为σ^2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值\overline{x}的抽样分布近似服从均值为μ、方差为\frac{σ^2}{n}的正态分布。

参数估计

一个总体参数的区间估计

  • 总体均值的区间估计:

            不同情况下总体均值的区间估计

总体分布 样本量 σ已知 σ未知
正态分布 大样本(n\geq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{\alpha}{2} \frac{s}{\sqrt{n}}
正态分布 小样本(n\leq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{t}{2} \frac{s}{\sqrt{n}}
非正态分布 大样本(n\geq30 \overline{x}\pm z_\frac{\alpha}{2} \frac{σ}{\sqrt{n}} \overline{x}\pm z_\frac{\alpha}{2} \frac{s}{\sqrt{n}}
  • 总体比例的区间估计
    比例的区间估计只讨论在大样本的情况下,由样本比例p的抽样分布可知,当样本量足够大时,比例p的抽样分布可用正态分布近似。
    总体比例的置信区间为:p\pm z_\frac{\alpha}{2} \sqrt{\frac{p(1-p)}{ n }}

  • 总体方差的区间估计
    方差的区间估计只讨论正态总体方差的问题。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的\chi^2分布。因此,用\chi^2分布构造总体方差的置信区间。
    总体方差σ²在1-\alpha置信水平下的置信区间为:
    \frac{(n-1)s^2}{\chi^2_\frac{\alpha}{2}}\leq σ^2 \leq \frac{(n-1)s^2}{\chi_\left( 1-\frac{\alpha}{2} \right)}

两个总体参数的区间估计

  • 两个总体均值之差的区间估计
参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm z_\frac{\alpha}{ 2} \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} (1)独立大样本
(n_1≥30,n_2≥30)
(2)σ_1,σ_2已知
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm z_\frac{\alpha}{ 2} \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} (1)独立大样本
(n_1≥30,n_2≥30)
(2)σ_1,σ_2未知
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm t_\frac{\alpha}{ 2}(n_1+n_2- 2) \sqrt{s_p^2 (\frac{1}{n_1}+\frac{ 1}{n_2})} (1)两个正态总体
(2)独立小样本
(n_1<30,n_2<30)
(3)σ_1,σ_2未知但相等
u_1-u_2
两个总体
均值之差
\overline{x}_1-\overline{x}_2 \sqrt{\frac{σ^2_1}{n_1}+\frac{σ^2_2}{n_2}} \left( \overline{x}_1 -\overline{x}_2 \right) \pm t_\frac{\alpha}{ 2} (v)\sqrt{\frac{ s ^2_1}{n_1}+\frac{s^2_2}{n_2}} (1)两个正态总体
(2)独立小样本
(n_1<30,n_2<30)
(3)σ_1,σ_2未知且不相等
u_d=u_1-u_2
两个总体
均值之差
\overline{d} \frac{σ_d}{\sqrt{n}} \overline{d} \pm z_\frac{\alpha}{2} \frac{σ_d}{\sqrt{n}} 匹配大样本
(n_1≥30,n_2≥30)
u_d=u_1-u_2
两个总体
均值之差
\overline{d} \frac{σ_d}{\sqrt{n}} \overline{d} \pm t_\frac{\alpha}{2} (n-1)\frac{s_d}{\sqrt{n}} (1)两个正态总体
(2)匹配小样本
(n_1<30,n_2<30)
  • 两个总体比例之差的区间估计
参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
\pi_1-\pi_2
两个总体
比例之差
p_1-p_2 \sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_ 2}} (p_1-p_2) \pm z_\frac{\alpha}{2} \sqrt{\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_ 2}} (1)两个二项总体
(2)匹配小样本
(n_1p_1≥5,n_1(1-p_1)≥5
n_2p_2≥5,n_2(1-p_2)≥5)
  • 两个总体方差比的区间估计
参数 点估计量(值) 标准误差 (1-\alpha)%的置信区间 假定条件
σ_1^2-σ_2^2
两个总体
方差比
s_1^2/s_2^2 (不要求) \frac{s_1^2/s_2^2}{F_\frac{\alpha}{2}}\leq\frac{σ_1^2}{σ_2^2}\leq\frac{s_1^2/s_2^2}{F_\left(1-\frac{\alpha}{2}\right)} 两个正态总体

样本量的确定

  • 估计总体均值时样本量的确定
    由于估计误差E=z_\frac{\alpha}{2} \frac{σ}{\sqrt{ n}},因此可以推断出确认样本量的公式如下:
    n=\frac{(z_\frac{\alpha}{2})^2σ^2}{E^2}

  • 估计总体比例时样本量的确定
    由估计误差E=z_\frac{\alpha}{2} \sqrt{\frac{\pi(1-\pi)}{ n}}可以推导出重复抽样或无限总体抽样条件下确认样本量的公式如下:
    n=\frac{(z_\frac{\alpha}{2})^2\pi(1-\pi)}{E^2}

假设检验

  • 两类错误
项目 没有拒绝H_0 拒绝H_0
H_0为真 1-\alpha(正确决策) \alpha(弃真错误)
H_0为伪 \beta(取伪错误) 1-\beta(正确决策)
  • 假设的检验流程
    1.提出原假设H_0与备择假设H_1;
    2.计算统计分布量;
    3.将统计分布量与显著性水平比较(如z值):若\mid z\mid<\mid z_\frac{\alpha}{2}\mid,不拒绝H_0;
                         若\mid z\mid>\mid z_\frac{\alpha}{2}\mid,拒绝H_0

  • 利用P值进行决策
    P值反映了观察到的实际数据与原假设之间不一致的概率,可以有效避免以上两类错误。
    在事先确认好显著性水平后,如\alpha=0.05,则在双侧检验中,P>0.025(\frac{\alpha}{2}=0.05)不能拒绝原假设;反之,P<0.025则拒绝原假设;在单侧检验中,P>0.05不能拒绝原假设;P<0.05则拒绝原假设。

  • 单侧检验
    左单侧检验称为下限检验,右单侧检验称为上限检验。

一个总体参数的检验
在一个总体参数的检验中,用到的检验统计量主要有三个:z统计量,t统计量,\chi^2统计量。z统计量和t统计量主要用于均值和比例的检验,\chi^2统计量则用于方差的检验。

检验参数 条件要素 检验统计量
总体均值u_0检验 大样本 z=\frac{\overline{x}-u_0}{σ/\sqrt{n}}
总体均值u_0检验 小样本
(σ已知)
z=\frac{\overline{x}-u_0}{σ/\sqrt{n}}
总体均值u_0检验 小样本
(σ未知)
t=\frac{\overline{x}-u_0}{s/\sqrt{n}}
总体比例\pi_0检验 大样本 z=\frac{p-\pi_0}{\sqrt{\frac{\pi_0\left(1- \pi_0 \right)}{n}}}
总体方差σ^2检验 大样本 \chi^2=\frac{(n-1)^2s^2}{σ^2}

两个总体参数的检验

检验参数 条件要素 检验统计量
均值之差
u_1-u_2检验
样本量大
σ²已知或未知
z=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{ n_2}}}
均值之差
u_1-u_2检验
样本量小
σ²未知,且\sigma_1^2=\sigma_2^2
t=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{s _p\sqrt{\frac{1}{n_1} + \frac{1}{ n_2}}}
均值之差
u_1-u_2检验
样本量小
σ²未知,且\sigma_1^2≠\sigma_2^2
t=\frac{(\overline{x}_1-\overline{x}_2)-(u_1-u_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{ n_2}}}
比例之差
\pi_1-\pi_2检验
服从二项分布 z=\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{ n_2}+\frac{1}{ n_2})}}
方差比
\frac{σ^2_1}{σ^2_2}检验
两个正态总体 F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}

方差分析

单因素方差分析
总平方和(sum of squares for total):SST=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\overline{\overline{x}})^2
组间平方和(sum of squares for factor A):SSA=\sum_{i=1}^kn_i(x_{i}-\overline{\overline{x}})^2
组内平方和(sum of squares for error):SSE=\sum_{i=1}^k\sum_{j=1}^{n_i} (x_{ij}-\overline{x})^2
SST=SSA+SSE
EXCEL方差分析表:

误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
组间(因素影响) SSA k-1 MSA MSA/MSE
组内(误差) SSE n-k MSE
总和 SST n-1

表格分析:1.若F值>F临界值,则拒绝原假设H_0,表明有显著差异;
     2.若F值<F临界值,则不拒绝原假设H_0,表明没有显著差异;
     3.若P<\alpha,则拒绝H_0,若P>\alpha,则不拒绝H_0

  • 关系强度的度量
    反映自变量和因变量的关系程度的大小记为R^2:
    R^2=\frac{SSA}{SST}

  • 方差分析中的多重比较
    方差分析中的比较值记为LSD:
    LSD=t_\frac{\alpha}{2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}
    如果\mid\overline{x}_i-\overline{x}_j\mid>LSD,则拒绝H_0,如果\mid\overline{x}_i-\overline{x}_j\mid<LSD,则不拒绝H_0

双因素方差分析

  • 无交互作用的双因素方差分析
    第一项行因素产生的误差平方和,记为SSR:SSR=\sum_{i=1}^k\sum_{j=1}^{r}(x_{i·}-\overline{\overline{x}})^2
    第二项列因素产生的误差平方和,记为SSC:SSC=\sum_{i=1}^k\sum_{j=1}^{r}(x_{·j}-\overline{\overline{x}})^2
    SST=SSR+SSC+SSE
    EXCEL方差分析表:
误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
行因素 SSR k-1 MSR F_R
列因素 SSC n-k MSC F_C
误差 SSE (k-1)*(r-1) MSE
总和 SST kr-1

表格分析
1.F_R>F_\alpha,拒绝原假设H_0,表明行之间有显著差异,反之则不拒绝原假设H_0,表明行之间没有明显差异;
2.F_C>F_\alpha,拒绝原假设H_0,表明列之间有显著差异,反之则不拒绝原假设H_0,表明列之间没有明显差异;
3.如果P-value<\alpha,拒绝原假设H_0,P-value>\alpha,不拒绝原假设H_0

关系强度的测度:
R^2=\frac{SSR+SSC}{SST}

  • 有交互作用的双因素方差分析
    SST=SSR+SSC+SSRC+SSE
    EXCEL方差分析表:
误差来源 平方和SS 自由度df 均方MS F值 P值 F临界值
行因素 SSR k-1 MSR F_R
列因素 SSC n-k MSC F_C
交互作用 SSRC (k-1)*(r-1) MSRC F_{RC}
误差 SSE kr(m-1) MSE
总和 SST kr-1

表格分析
1.行因素的P-value<\alpha,则拒绝原假设,表明行之间有显著差异,反之,不拒绝原假设,表明行之间没有显著差异;
2.列因素的P-value<\alpha,则拒绝原假设,表明列之间有显著差异,反之,不拒绝原假设,表明列之间没有显著差异;
3.交互作用的P-value<\alpha,则拒绝原假设,表明相互作用有显著影响,反之,不拒绝原假设,表明相互作用没有显著影响。

一元线性回归

相关系数(correlation coefficient):根据样本数据计算的度量两个变量之间线性关系强度的统计量(CORREL(Array1,Array2))。
r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum {x}^2-\left( \sum x \right) ^2} \times \sqrt{n \sum y^2 - \left( \sum y\right) ^2}}

EXCEL一元线性回归表:

回归统计
Multiple R r
R Square R^2
Adjusted R Square R_a^2
标准误差 s_e
观测值 n

方差分析

SS df MS F值 P值 Significance F
回归 SSA k-1 MSA MSA/MSE
残差 SSE n-k MSE
总计 SST n-1
Coefficients 标准误差 t Stat P-value Lowe 95% Upper 95%
Intercept \beta_0
X Variable 1 \beta_1

表分析:
1.回归方程:E(y)=\beta_0+\beta_1x;
2.r=1时,x与y之间为完全正线性相关关系,r=-1时,x与y之间为完全负线性相关关系;r区间为(0,1)时,x与y之间为正线性相关关系,r区间为(-1,0)时,x与y之间为负线性相关关系。
3.R^2的值表明x与y之间的拟合强度,R^2的值越接近1,表明x与y相关性越强,拟合性越好。
4.标准误差s_e可以用来度量各实际观测点在直线周围散布状况的一个统计量,说明判断结果的误差范围。
5.线性关系检验:若F>F_\alpha,拒绝H_0,表明两个变量之间的线性关系是显著的;若F<F_\alpha,不拒绝H_0,没有证据表明两个变量之间的线性关系显著(除此之外,还需要判断P值与\alpha之间的大小以确定是否拒绝H_0,EXCEL表中的显著性F(Significance F)就是用于检验的P值)。
6.回归系数的检验:t(t Stat)>t_\frac{\alpha}{2},拒绝原假设,表明该变量是显著性影响要素(判断P值方法与前面相同)。
7.点估计:代入自变量到回归方程获得相应的因变量。
8.置信区间估计:y_0\pm t_\frac{\alpha}{2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum_{i=1} ^n(x_i -\overline{x})^2}}
9.预测区间估计:y_0\pm t_\frac{\alpha}{2}s_e\sqrt{1+ \frac{1}{n}+\frac{(x_0-\overline{x})^2}{\sum_{i=1} ^n(x_i -\overline{x})^2}},预测区间要比置信区间更宽一些。

多元线性回归

EXCEL多元线性回归表:

回归统计
Multiple R r
R Square R^2
Adjusted R Square R_a^2
标准误差 s_e
观测值 n

方差分析

SS df MS F值 P值 Significance F
回归 SSA k-1 MSA MSA/MSE
残差 SSE n-k MSE
总计 SST n-1
Coefficients 标准误差 t Stat P-value Lowe 95% Upper 95%
Intercept \beta_0
X Variable 1 \beta_1
X Variable 2 \beta_2
X Variable 3 \beta_3
…… ……

表分析:
1.回归方程:E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+……;
2.r=1时,x与y之间为完全正线性相关关系,r=-1时,x与y之间为完全负线性相关关系;r区间为(0,1)时,x与y之间为正线性相关关系,r区间为(-1,0)时,x与y之间为负线性相关关系。
3.R^2_a为调整多重判定系数,表明x与y之间的拟合强度,R^2_a的值越接近1,表明x与y相关性越强,拟合性越好。
4.标准误差s_e可以用来度量各实际观测点在直线周围散布状况的一个统计量,说明判断结果的误差范围。
5.线性关系检验:若F>F_\alpha,拒绝H_0,表明两个变量之间的线性关系是显著的;若F<F_\alpha,不拒绝H_0,没有证据表明两个变量之间的线性关系显著(除此之外,还需要判断P值与\alpha之间的大小以确定是否拒绝H_0,EXCEL表中的显著性F(Significance F)就是用于检验的P值)。
6.回归系数的检验:t(t Stat)>t_\frac{\alpha}{2},拒绝原假设,表明该变量是显著性影响要素(判断P值方法与前面相同)。

指数

简单综合指数:I_p=\frac{\sum p_1}{\sum p_0},I_q=\frac{\sum q_1}{\sum q_0},p代表质量指标,q代表数量指标;I_p代表质量指标指数,I_q代表数量指标指数。
加权综合指数:I_p=\frac{\sum qp_1}{\sum qp_0},I_q=\frac{\sum q_1p}{\sum q_0p} ,其中p,q代表的是权数。
(1)拉氏指数:I_p=\frac{\sum q_0p_1}{\sum q_0p_0},I_q=\frac{\sum q_1p_0}{\sum q_0p_0}, I_p代表质量指标指数,I_q代表数量指标指数,p_0p_1分别表示基期和报告期的质量指标值;q_0q_1分别表示基期和报告期的数量指标值
(2)帕氏指数:I_p=\frac{\sum q_1p_1}{\sum q_1p_0},I_q=\frac{\sum q_1p_1}{\sum q_0p_1}

  • 总体指数分析
    实际分析中比较常用的是基期权数加权的数量指数(拉氏指数)和报告期权数加权的质量指数(帕氏指数)形成的指数体系,该指数体系可表示为:
    \frac{\sum q_1 p_1}{\sum q_0p_0}=\frac{\sum q_1 p_0}{\sum q_0p_0}\times\frac{\sum q_1 p_1}{\sum q_1p_0}
    因素影响的差额之间的关系为:
    \sum q_1p_1-\sum q_0p_0=(\sum q_1p_0-\sum q_0p_0)+(\sum q_1p_1-\sum q_1p_0)

相关文章

网友评论

      本文标题:统计思维导图与常用公式

      本文链接:https://www.haomeiwen.com/subject/djgurqtx.html