美文网首页
统计特征

统计特征

作者: rol_ling | 来源:发表于2017-10-25 11:02 被阅读0次

    在研究数据整体的时候,统计特征可以有效的帮助我们快速了解数据。

    集中量数和差异量数是描述数据的两种概念。

    一:集中量数

    描述一组数据的规律性的量数称为集中量数。它是一组数据的一般水平的代表值。

    教育评价中常用的描述一组评价对象一般水平的量数有算术平均数、中位数和众数、几何平均数等。

    1.算术平均数

    算术平均数是全部数据的算术平均,又称均值,符号为M(Mean)。算术平均数是集中趋势作主要的测度值,在统计学中具有重要地位, 是进行统计分析和统计推断的基础。它主要适用于数值型数据,但不适用品质数据。根据表现形式的不同,算术平均数有不同的计算形式和计算公式。其中,算术平均数是加权平均数的一种特殊形式(它特殊在各项全相等),在实际问题中,当各项权不相等时,计算平均数时就要采用加权平均数,当各项权相等时,计算平均数就要采用算数平均数。两者不可混淆。

    简单算术平均数

    简单算术平均数主要用于未分组的原始数据。设一组数据为X1,X2,...,Xn,简单的算术平均数的计算公式为:

    M=(X1+X2+...+Xn)/n

    优缺点

    算数平均数具备了良好集中量数应具备的一些条件:

    1、集中量数

    2、反应灵敏

    3、确定严密

    4、简明易解

    5、计算简单

    6、适合进一步演算

    7、较小受抽样变化的影响等优点。

    同时也存在一定的缺点,限制了它的使用:

    1、算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。

    2、若出现模糊不清的数据时,无法计算平均数。[1]

    应用原则

    1、同质性数据

    2、平均数与个体数值相结合考虑

    3、平均数于方差、标准差相结合考虑

    二.中位数

    中数(Median),又名中位数。 对一组数进行排序后,正中间的一个数(数字个数为奇数);或者中间两个数的平均数(数字个数为偶数)。

    中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。这个数可能是数据中的某一个,也可能根本不是原有的数。

    优点

    1、计算简单

    2、容易理解

    3、不受极端值影响

    缺点

    1、反应不够灵敏

    2、 受抽样影响较大

    3、中数乘以总次数于总数不相等

    4、不能进一步代数运算

    应用情况

    1、需要快速估算集中值时

    2、有极端数据时

    3、有模糊不清楚的数据时

    3.众数

    众数(Mode),一组数据中出现次数最多的数值,叫众数,用M表示。

    计算众数的方法

    (一)、根据单项数列求众数,不需要任何计算,可以直接从分配数列中找出出现次数或频率最大的一组标志值,就是所求的众数。

    (二)、对组距数列求众数。对众数的计算有两种公式:

    1、上限公式:

    2、下限公式

    其中:

    f表示众数所在组次数;

    f-1表示众数所在组前一组的次数;

    f+1表示众数所在组后一组的次数;

    L表示众数所在组组距的下限;

    U表示众数所在组组距的上限;

    i表示组距;

    优点

    1、简单明了

    2、容易理解

    缺点

    1、不稳定,受分组和样本变动影响

    2、反应不灵敏

    3、不能进一步做代数运算

    应用

    1、需要快速估算一组数据集中值时。

    2、数据不同质时

    3、两极端有极端值时

    4、快速估计分布形体时

    4.几何平均数

    几何平均数(Geometric mean),是求一组数值的平均数的方法中的一种。适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。

    几何平均数(geometric mean)是指n个观察值连乘积的n次方根。

    1、简单几何平均数:

    2、加权几何平均数:

    应用

    1、对比率、指数等进行平均;

    2、计算平均发展速度;

    其中:样本数据非负,主要用于对数正态分布。

    3、复利下的平均年利率;

    4、连续作业的车间求产品的平均合格率。

    二 :差异量数

    差异量数亦称变异量数,又称离散趋势量数,它是统计学的基本概念之一,指表示样本数据偏离中间数值的趋势的量数,或者说它是反映样本频率分布离散程度的量数。差异量数大,表示各数值分布的范围广且参差不齐;差异量数小,表示各数值较集中、整齐,波动的范围幅度小。因此,集中量数的代表性如何,可由差异量数得到反映。差异量数愈大,则集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。所以,考察某种分布的差异量数,还有助于对集中量数的理解。

    常见的差异量有平均差方差标准差全距四分差、百分差等。

    1.平均差

    一组数据( 样本)Xi,i = 1,…,N(1)的平均差公式为下图

    它是算术平均数与各数据距离的平均,有效地利用了信息,能直接很好地反映这组数据的差异程度。但由于MD(平均数)用了绝对值,难以进行代数运算,理论分析困难,所以运用较少。

    2.方差

    它是将MD中的距离改为距离的平方得到。方差可有效地利用信息,且能很好地反映这组数据的差异程度。这样改变后,虽然不如平均差反映差异那么直接,但避免了绝对值,从而进行数学处理更加方便,应用最广。

    3.标准差

    标准差(Standard Deviation),在概率统计中最常 

    4.全距

    全距是用来表示统计资料中的变异量数(measure sofvariation),其最大值最小值之间的差距;即最大值减最小值后所得之数据。其适用于等距变量、比率变量,不适用于名义变量或次序变量。

    全距也称为极差,是指总体各单位的两个极端标志值之差,即:R=最大标志值-最小标志值

    因此,全距(R)可反映总体标志值的差异范围。

    5.四分差与百分差

    百分差与四分差只利用了数据的部分信息,不能进行代数运算,反应不灵敏,但当两极端数据不清楚或数据信息不全时,只能用百分差与四分差。

    全距、百分差与四分差都只利用了数据的部分信息,一般是在数据信息不全,平均差和方差及其改进量不能用时选用。


    相关文章

      网友评论

          本文标题:统计特征

          本文链接:https://www.haomeiwen.com/subject/qyzzyxtx.html