美文网首页
数据分布的描述

数据分布的描述

作者: Corey_88c6 | 来源:发表于2019-07-20 01:35 被阅读0次

    数据的分布描述简单可以概括为集中趋势、离散程度以及分布形状等

    一、集中趋势描述的优劣比较

    1.平均数

    也称为均值,常用的统计量之一

    消除了观测值的随机波动

    易受极端值的影响

    数学性质优良,实际中最常用

    数据对称分布或接近对称分布时代表性较好

    2.中位数

    排序后处于中间位置上的值。不受极端值影响

    数据分布偏斜程度较大时代表性接好

    3. 四分位数

    排序后处于25%和75%位置上的值

    不受极端值的影响

    4. 众数

    一组数据中出现次数最多的变量值

    适合于数据量较多时使用

    不受极端值的影响

    具有不惟一性,一组数据可能没有众数或有几个众数

    数据分布偏斜程度较大且有明显峰值时代表性较好

    二、离散程度的描述

    1.极差

    一组数据的最大值与最小值之差

    离散程度的最简单测度值

    易受极端值影响

    未考虑数据的分布

    2.四分位差

    也称为内距或四分间距

    上四分位数与下四分位数之差

    反映了中间50%数据的离散程度

    不受极端值的影响

    用于衡量中位数的代表性

    3.方差与标准差

    数据离散程度的最常用测度值

    反映各变量值与均值的平均差异

    根据总体数据计算的,称为总体方差(标准差)

    根据样本数据计算的,称为样本方差(标准差)

    4.离差

    每个观测值与均值的差异

    5.标准分数

    计算方式为(原始数据-均值)/标准差

    对某一个值在一组数据中相对位置的度量

    可用于判断一组数据是否有离群点

    用于对变量的标准化处理

    均值等于0

    方差等于1

    只是将原始数据进行了线性变换,没有改变某个数据在该组数据中的位置,也没有改变该组数分布的形状

    6.离散系数

    标准差与其相应的均值之比

    消除了数据水平高低和计量单位的影响

    用于对不同组别数据离散程度的比较

    解释需要谨慎,特别对于平均值趋近于0的样本,此时敏感度较大

    没有置信区间

    7.异众比率

    非众数组的频数占总频数的比率

    衡量众数对一组数据的代表程度,异众比率越高大,说明非众数组占总频数的比重越大,众数的代表性越差

    三、数据分布性状的描述

    偏态与峰态测量的是数据的形状,如是否对称、偏斜的程度以及扁平的程度

    1.偏态

    测度统计量是偏态系数

    偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布

    偏态系数大于1或小于-1,为高度偏态分布

    偏态系数在0.5~1或-1~-0.5之间,是中等偏态分布

    偏态系数越接近0,偏斜程度就越低

    2.峰态

    测度统计量是峰态系数

    峰态系数=0扁平峰度适中

    峰态系数<0为扁平分布

    峰态系数>0为尖峰分布

    相关文章

      网友评论

          本文标题:数据分布的描述

          本文链接:https://www.haomeiwen.com/subject/ntjvsqtx.html