美文网首页互联网&大数据应用学习机器学习与数据挖掘大数据
成为数据分析师要掌握的统计知识(进阶版)

成为数据分析师要掌握的统计知识(进阶版)

作者: 数据蛙datafrog | 来源:发表于2017-10-01 17:55 被阅读244次

    阅读指南:

    • 总体均值和比例的统计推断
    • 总体方差的统计推断

    总体均值和比例的统计推断

    其实数据分析更多情况是两个总体的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比较的情况进行学习。

    接下来讨论的内容为:

    • σ1,σ2已知,u1-u2的区间估计和假设检验
    • σ1,σ2未知,u1-u2的区间估计和假设检验

    两个总体均值之差的推断:σ1,σ2已知

    • 区间估计

    如果总体1中抽取容量为n1的简单随机样本,随机样本均值(x1拔)服从正态分布或者样本容量大于30;从总体2中抽取容量为n2的简单随机样本,样本均值(x2拔)服从正态分布或者样本容量大于30,并且n1与n2相互独立。那么随机变量(x1拔)-(x2拔)也服从正态分布。于是对两总体均值之差为u1-u2进行区间估计(总体1的均值为u1,总体2的均值u2)情况如下:

    举个例子,理解下知识点:
    我们考虑的问题是:百货公司市区商场与郊区商场顾客平均年龄的差异是怎么样的?

    1. 已知:u1=总体1的均值(市区商场顾客的平均年龄),u2=总体2的均值(郊区商场顾客的平均年龄)
    2. (x1拔)=n1名市区顾客的简单随机样本的样本平均年龄,n1=36,(x1拔)=40
    3. (x2拔)=n2名市区顾客的简单随机样本的样本平均年龄,n2=49,(x1拔)=35
    4. 因为n1,n2都是大于30的,所以我们可以认为两个总体的抽样样本均值分布服从正态分布,并且两个总体的抽样样本均值之差也服从正态分布。
      并且历史数据表明:σ1=9,σ2=10,置信水平1-α=95%
    5. 所以两地顾客平均年龄差异的区间估计为:
    • 假设检验

    假设共有的情况是:下侧检验、上侧检验、双侧检验

    检验统计量

    采用的方法还是P值法或者临界值法

    1. P值法:
      如果p值<=α,则拒绝H0(α:显著性水平)
    2. 临界值法
      如果z<=-zα,则拒绝H0 (-zα:是临界值,对于下侧检验和双侧检验适用)
      如果z>=zα,则拒绝H0 (zα:是临界值,对于上侧检验适用)

    老规矩,来一个例子:
    分析两个销售团队考核成绩的差异,已知u1=A团队人员的平均成绩,u2=B团队人员的平均成绩。样本平均成绩(x1拔)=82,n1=30;(x2拔)=78,n2=40;σ1=10,σ2=10,α=0.05。

    想一下,我们想要得出的结论是:两个销售团队考核成绩有差异。所以使用双侧检验,原假设和备选假设如下:H0:u1-u2=0 H1:u1-u2不等于0。把各个参数值带入上面的公式得出检验统计量z=1.66。

    z=1.66 时,右侧曲线下的面积为1-0.9515=0.0485,p值=2X0.0485=0.0970>α。
    临界值=z(α/2)=z(0.025)=1.96;z<z(α/2)。所以,没有足够的证据拒绝H0,两个销售团队的考核结果没有质量上的不同。

    两个总体均值之差的推断:σ1,σ2未知

    当σ1,σ2未知时,通过样本标准差s1,s2来估计总体标准差的,区间估计和假设检验的程序建立在t分布上。

    • 区间估计

    自由度:两个独立随机样本的t分布(下面的公式了解即可,实际操作中都是借助工具),并且非整的自由度向下取整。


    • 假设检验
      假设检验共有的情况是:下侧检验、上侧检验、双侧检验

    检验统计量

    采用的方法还是P值法或者临界值法

    总体方差的总体推断

    因为实际生活中,比如工厂生产一批产品,即使判断了总体均值符合我们的要求,但是不能保证过每一个都是符合我们的要求,但估计的总体方差在我们的接受范围之内,我们也是认为产品是合格的,可以继续生产。

    一个总体的方差的统计推断

    自由度为1,4,10,20的卡方分布图如下

    下面用一道例题来详细的说明一下:
    抽取一个样本,样本容量为20,得到样本的方差=0.0025,且总体服正态分布。求总体方差的区间估计
    n=20,自由度=19,所以



    选择置信水平选择95%,就有如图所示的内容

    所以总体方差95%的置信区间为:

    • 假设检验

    原假设和备选假设,有如下的情况

    检验统计量如下:


    还是利用p值法和临界值法

    两个总体方差的统计推断

    从两个方差相等的正态总体中分别抽取容量为n1和n2的两个独立简单随机样本,则(s1)2/(s2)2的抽样分布服从自由度为分子n1-1和分母n2-1的F分布。

    • 假设检验:
      原假设和备选假设如下:

      检验统计量:F=(s1)2/(s2)2

    注意的是:

    将方差较大的总体记为总体1,F检验统计量服从分子自由度为n1-1,分母自由度为n2-1的F分布;因为(s1)2为较大分子,检验统计量在F分布上侧
    校车服务质量的检测。

    举例子:一个学校想从A、B两家校车公司选择一家合作。该校将两公司校车到达时间的方差作为衡量服务质量稳定性的标准。

    A家:n1=26;(s1)2=48;B家:n2=16;(s2)2=20;α=0.10
    假设检验:
    原假设和备选假设如下:


    检验统计量:F=(s1)2/(s2)2=48/20=2.40;分子自由度=n1-1=25;分母自由度=n2-1=15

    所以:F 分布的上侧面积介于0.025~0.05之间,
    双侧检验:p值介于0.05~0.10之间

    P值<α,有足够的证据拒绝H0,两家公司的服务质量稳定性不同。
    因此,学校可以通过进一步验证做出选择。

    统计知识的学习先告一段落了,后面还有独立性及拟合检验、方差分析、线性回归和多元回归、时间序列分析及预测,这些打算结合R语言或者Python语言来进行学习,到时间再总结文章和大家一起学习。

    相关文章

      网友评论

        本文标题:成为数据分析师要掌握的统计知识(进阶版)

        本文链接:https://www.haomeiwen.com/subject/gennextx.html