美文网首页
从统计学上如何分辨两组数据有明显差异?

从统计学上如何分辨两组数据有明显差异?

作者: Liping7 | 来源:发表于2019-06-04 14:49 被阅读0次

    在数据分析过程中,你可能会经常遇到一个问题,比如你统计了上个月和这个月的活跃度平均值,你发现这个月的平均值比上个月有增长,但是这个增长是足够大,是本质的变化呢,或者只是随机的波动呢?你应该不应该向领导和同事报喜呢?是沾沾自喜还是真的有了重大突破,值得发奖金呢?这个时候就需要用到统计检验。下面就介绍几组适合不同数据的统计检验方法。

    一 T检验,用于正态分布的参数检验

    检验两组独立样本平均值是否相同,只用于连续变量

    主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。

    只适用于连续变量,在一定区间内可以任意取值的变量连续变量,其数值是连续不断的,相邻两个数值可作无限分割。简单粗暴的说,就是某个变量可以保留小数点后几位。比如,高考成绩。

    一般我们接触数值都是连续变量,而且正态分布,因此T检验是非常常用的一种参数检验的方法。

    1.独立样本T检验(Independent Sample T Test)

    检测两个对象或者两种事务在同一时间的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。

    比如,有一组男生高考成绩,36个样本;有一组女生高考成绩,42个样本。

    这两组数据是不同对象(不同性别组),在同一个时间高考成绩。我们想了解男生女生的平均成绩是否相同。

    此时可采用独立样本T检验来分辨两组数据(视为两个子总体)的均值是否相同。

    2.配对样本T-test(配对样本T检验)

    检测同一对象或者同一事务在两种条件的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。

    比如,我们开头提出的问题。我们有某个APP上个月每天的日活跃度,还有某个APP这个月每天的日活跃度。我们想知道这两个月APP平均日活跃度是否相同。这样的情况就可以用配对样本T检验

    如果通过统计检验,发现平均日活跃度下降了,但是平均值和上个月没有明显的不同,就没有必要太沮丧,说明这个波动还在比较正常的范围。如果这个月日活跃度平均值和上个月有明显的差异,而且低于上个月,那么就需要特别注意运营或者产品设计了。如果有明显差异,而且还是高于上个月的,就可以向领导同事报喜了。

    非参数检验,检验两组或者多组样本分布是否相同,适用于所有类型变量

    非参数检验是不必假设样本呈现何种分布。如果已知道样本呈现何种分布就用对应的参数检验;如果不确定样本是否正态分布,也可以采用参数检验。

    非参数检验适用于以下所有类型的变量。

    (1)定类数据,或称类别数据,如性别、材料类型和付款方式,非黑即白;(2)定序数值,数据有几个离散值,1,2,3,这些值大小是有意义的,但是大小差距是没有意义;(3)定距数据,从非正太分布的数据重抽取的区间数据,也就是连续性变量。

    比较常用的比较两组独立样本之间的非参数检验有:

    (1)检验两个相关样本(两组抽样)分布没有差异(来自同一个总体)

    注意检验的样本之间有相关关系或者

    A. Wilcoxon Signed Ranks检验

    以秩检验为主,检验差异的方向和大小,比较全面,优先推荐这种检验。

    B. Sign检验,检验正负差异次数

    C. McNemar,侧重检验是否有差异

    (2)检验k个相关样本(两组抽样)分布没有差异(来自同一个总体)

    A.Friedman检验,秩检验,同时计算卡方,tie

    B.Kendall检验,秩检验

    C.Cochran的Q检验,只适用于二分变量,即k组样本都是0和1两种编码

    (3)检验两组独立样本(两组抽样)是否来自同一个总体

    推荐K-S(Kolmogorov Smirnov)检验

    (4)检验k个独立样本是否来自统一整体

    推荐Kruskal-WAllis检验

    三 简而言之

    如果你的两组或者多组变量是定距连续变量,那采用T检验就可以。

    如果你变量不是定距变量,或者,定距变量明显不符合正态分布,才考虑使用非参数检验。

    相关文章

      网友评论

          本文标题:从统计学上如何分辨两组数据有明显差异?

          本文链接:https://www.haomeiwen.com/subject/dqqhxctx.html