美文网首页统计学基础
数据的描述性统计

数据的描述性统计

作者: Bigvan | 来源:发表于2019-07-21 23:48 被阅读0次

数据描述的维度及指标

数据的集中趋势

算数平均值 加权平均值 几何平均值

有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。如生产线:

案例分析:因为该食品工厂的生产工艺是连续性生产,只有上一道工序的合格品才能进入下一道工序中,所以每道工序的合格率之间是乘积关系。因此,该生产线的产品平均合格率应用几何平均值表示。

数据的离散程度描述

极差

极差又被称为全距,是指数据集合中最大值与最小值的差值,表示
整个数据集合能够覆盖的数值距离。

平均偏差

平均偏差的数值代表了所有数值与平均值的平均偏差距离。


方差和标准差

总体方差

总体标准差

样本方差

样本标准差


抛出一个问题,如果是奥特曼和蚂蚁分别站队,这时候想看看哪一队站的整齐,就不能采用方差和标准差了,显然对于奥特曼来说是不公平的,这时可以采用变异系数指标来评价。

变异系数 也称 离散系数

方差和标准差虽然能够表示数据集合中每个数值(个案)距离算术均值的平均偏差距离,但是这个距离的大小程度却不能很好展现,特别是对于算术平均值不同的两个数据集合。变异系数实质上是标准差相对于算术平均值的大小。


总体的变异系数 样本的变异系数

四分位极差

将所有数据从小到大进行排序,如果数据集合的数值个数是奇数,那么排在最中间的数据值即为中位数;如果数值个数是偶数,那么取最中间两个数值的算术平均值作为中位数。以此类推,排在四分之一位置的数值即为第一四分位数Q1;排在四分之二位置的数值为第二四分位数Q2 ,也就是中位数;排在四分之三位置的数值为第三四分位数Q3。这三个四分位数将整个数据集合分成四等分。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合50%的数据值。

异众比率

异众比率(variation ratio)是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的[频数]占总频数的比例。

偏态系数

偏态系数又称偏差系数,以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。


image.png

峰态系数

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。

在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

相关文章

  • 小数据| 描述性统计(Python/R 实现)

    描述性统计 描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,可以借助描述性统...

  • 【数据分析师必备】九大常用数据分析方法汇总(上)

    一、描述性统计 定义:描述性统计是一类统计方法的汇总,揭示了调查总体的数据分布特性。描述性统计分析要对调查总体所有...

  • R语言学习(六)基本统计分析--上

    整体数据计算描述性统计量 summary()函数 可以使用summary()函数来获取描述性统计量 可以看出sum...

  • 三、数据探索方法及函数汇总(Python描述)

    1 描述性统计 四个方面:数据的中心趋势、相对位置、离散度、相关性; 两种方式:统计量和统计图![描述性统计内容大...

  • 数理统计

    描述性统计:平均值/标准差/中位数描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描...

  • 数据探索之参数估计

    统计学有两大主要分支,分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总...

  • SPSS基本统计分析

    描述性统计分析 描述性统计分析可以对数据进行基本描述,例如:平均值、众数、中位数、方差、总数。 频数分析,对数据进...

  • 数据描述性统计

    一、集中趋势 1、众数,样本中出现次数(频数)最多的数值。 2、中位数,一组样本数据按升序或降序排列后,如果样本容...

  • Python描述性统计

    1、学习工具安装 Python、pandas、numpy环境安装; 2、数据的描述性统计

  • 数据的描述性统计

    数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...

网友评论

    本文标题:数据的描述性统计

    本文链接:https://www.haomeiwen.com/subject/fukjlctx.html