美文网首页
描述性统计

描述性统计

作者: 知止9527 | 来源:发表于2019-11-11 00:31 被阅读0次

    描述性统计

    数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。
    1.1 集中趋势的度量
    集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。

    1.1.1 分类的数据:众数
    众数(mode)是一组数据中最多出现的变量值。主要用于测度分类数据的集中趋势。也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下:只有数据量大的情况下,众数才有意义。并且不受极端值的影响

    在这里插入图片描述

    1.1.2顺序数据:中位数和分位数
    一组数据中,可以找出某个位置上的数据。

    • 中位数(median)是一组数据排序后处于中间位置上的变量值。适用于测度顺序数据的集中趋势,和数值型数据的集中趋势,不适用于分类数据。


      在这里插入图片描述
    • 四分位数 (quartile)也成四分位点,它是一组数据排序后处于25%上的位置和75%位置上的值。位置确定有如下几种:


      在这里插入图片描述

      Excel中可以使用QUARTILE函数计算一组数据的四分位数。
      算法:QUARTILE.INC(array,quart)

    1.1.3 数值型数据:平均数
    平均数也称均值(mean),它是一组数据相加后除以一组数据的个数的结果。
    平均数是集中趋势的测度值,适用于数值型数据,而不适用于顺序数据和分类数据。

    1. 简单平均数和加权平均数
      根据未经分组数据计算的平均数称之为简单平均数(simple mean)
    在这里插入图片描述
    • 根据分组数据计算的平均数称之为加权平均数(weighted mean)


      在这里插入图片描述

      2.特殊的平均数:几何平均数

    • 几何平均数(geometric mean) 是n个变量值乘积的n次方根,用G表示。
      当数据中出现零值或负值时,不宜计算集合平均数。主要用于计算平均比率。

      在这里插入图片描述

      Excel中GEOMEAN函数可以计算数值型的几何平均数
      语法:GEOMEAN(number1……)
      当所平均的各比率数值差别不大时,算数平均和几何平均结果差别不大,反之差别明显。

    1.1.4 众数,中位数,平均数的差别

    • 关系:
      分布角度:众数是数据分布的最高峰值,中位数处于数据中中间位置上的值,平均数是算数平均。
      对于单峰分布而言:如果数据对称:众数=平均数=中位数。
      如果左偏分布:会出现极小值,关系为:平均数<中位数<众数。
      如果右偏分布 :众数<中位数<平均数。

    • 应用场合:
      众数是一组数据分布的峰值,不受极值影响。缺点是不具有唯一性。适合作为分类数据的集中趋势测度值。

      中位数是一组数据中间位置上的值,不受极端值影响,适合顺序数据的测度值。

      平均数:针对数值型数据,是应用最广泛的集中趋势测度值。缺点容易受极端值影响。


      在这里插入图片描述

    1.2 离散程度的度量

    数据的离散程度是数据分布的另一个重要特征。反应个变量值原理中心值的程度。越大,集中趋势测度值代表性就越差;越小,代表性就越好。根据不同数据类型还有的异众比率,四分位差,方差和标准差。还有极差,平均差,和离散系数。

    1.2.1 分类依据 :异众比率(variation ratio)
    是指非众数组的频数占总频数的比例。用Vr表示

    在这里插入图片描述

    异众比率主要衡量众数对一组数据的代表程度。越大说明,非众数组的频数越大,众数的代表性越差。反之,越好。属于顺序和数值型数据也可以计算。

    1.2.2顺序数据:四分位差(quartile deviation)

    也称四分间距(inner -quartile range),是上四分位数和下四分位数的差值。Qd表示
    Qd = Qu-Ql
    其反映了50%的离散程度,数值越小,说明中间数据;反之,分散。一定程度上说明了中位数的影响,不适合分类数据。

    1.2.3 数值型数据:方差和标准差

    • 极差:一组数据中最大值和最小值的差。也称全距。用R表示。
      R = max(Xi)-min(Xi)
      容易受极端值影响,不能反映中间数据。

    • 平均差(mean deviation)
      也称平均绝对差(mean absolute deviation)。是个变量值与平均数差的绝对值。

      在这里插入图片描述

      Excel的AVEDEV(number……)可以计算平均差。

    能全面反映数据的离散程度。越大说明离散程度越大;反之,越小。

    • 方差和标准差
      方差(variance)是各变量值与平均数差平方的平均数。
      标准差(standard deviation)是方差的平方根。

    能更好的反映数据的离散程度。


    在这里插入图片描述

    Excel的统计函数STDEV(number……)
    总体数据:STDEVP(number……)

    自由度(degree of freedom):样本方差是用样本数据减1后去除离差的平方和。其中n-1称为自由度。


    在这里插入图片描述
    • 相对位置的度量
      1.标准分数(standard score):变量值与其平均数的差除以标准差。也称标准分数。设标准分数为z

      在这里插入图片描述

      标准分数给了一组数据中的相对位置。

    1.2.4 相对离散程度:离散系数

    离散系数:也称变异系数,它是一组数的标准差和平均数之比。

    在这里插入图片描述

    1.3 偏态和峰态的度量

    1.3.1 偏态及其测度

    偏态(skewness):是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness )。记作 SK。

    在这里插入图片描述

    相关文章

      网友评论

          本文标题:描述性统计

          本文链接:https://www.haomeiwen.com/subject/fiszbctx.html