美文网首页
数据分析2-频数分布

数据分析2-频数分布

作者: AnthRax | 来源:发表于2018-03-21 01:22 被阅读0次

频数分布

频数分布的定义:在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布。又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。

1.频数分布的意义

统计分布是统计分析结果的一种重要表现形式,也是统计分析的一种重要方法。由于在描述性统计时、只用平均值、方差等统计时会产生数据的信息缺失、需要一些其他方法来表示样本的实际状况。由于其分布概率分布近似、通常可以用来推断数列的分布情况。

2.频数分布的特征

社会经济现象总体的性质不同,其次数分布的特征也不同。各种社会经济现象总体的次数分布,归纳起来主要有钟型分布U型分布J型分布洛伦兹分布四种类型。

2.1钟形分布

钟型分布是正态分布的俗称,其特征是“中间高,两头低”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,形如古钟


钟形分布

在社会经济现象中,钟型分布多表现为对称分布。对称分布的特征是中间的变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中心变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。在社会经济现象中,许多变量的分布近似于正态分布类型。

Example
如从业人员的年收入、农作物单产、零件尺寸、学生考试成绩、社会财富分布等。正态分布在社会经济统计学中具有重要意义。这是因为,一方面。社会经济现象中大部分分布呈近似正态分布;另一方面,正态分布理论是抽样推断的基础。

2.2 U型分布

靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头高,中间低”的U字型分布。


U型分布

Example
如人口死亡现象按年龄分布便是如此。由于人口总体中幼儿和老年人死亡人数较多,而中年人死亡人数较少,因此,死亡人数按年龄分组便近似地表现为U 型分布

2.3 J型分布

在社会经济现象中,次数随着变量值的增加而增加,即J形分布。


J形分布

Example
如农作物产量按土地面积分布、人口数按零售商品销售额分布、工人数按总产值分布、库存量按库存费用分布等。

2.4 倒J分布

在社会经济现象中,次数随着变量值的增加而减少,即J型分布。


倒J分布

Example
如企业数按投资额分布、人口数按年龄大小分布等

2.5 洛伦兹分布

洛伦兹分布曲线是美国统计学家洛伦兹( M.Lorenz)提出来的,专门用以研究社会收入分配的平等问题。


洛伦兹分布

横轴OH表示人口的累计百分比,纵轴OM表示收入的累计百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度有着重要的意义,它反映了收入分配的不平等程度。弯曲程度越大,收人分配越不平等,反之亦然。

洛伦弦曲线与对角线之间的部分A 叫做“不平等面积”,直角三角形OHL的面积(A+B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,也称集中系数:基尼系数=A/(A+B)

基尼系数等于1,表示收人分配绝对不平等;基尼系数等于0,表示收人分配绝对平等。基尼系数是衡量,一个国家或地区贫富差距的标准之一。按照联合国有关组织规定:基尼系数若低于0.2表示收人平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收人差距较大;0.5 以上表示收人差距悬殊。通常把0.4作为收人分配差距的“警戒线”。发达国家的基尼系数在0.26-0.38 之间,我国2013年全国居民收人的基尼系数为0.473。

3.频数分组方法

  • 确定全距
    确定全距前,要检查数据组两端有没有极端值。如果有极端值且个数较少,应考虑将极端值归入开口组,计算全距前,可去掉极端值。
  • 确定组距和组数
    组距=全距/组数,当全距一定时。组距越大,组数就越少;组距越小,组数就越多,在实际应用中。组距一般应采用整数,最好是5或10的整倍数。也可以通过Sturges提出的经验公式来确定组数K:K=1+lnN/ln2。
  • 确定组限
    组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端值时,则采用闭口式:反之,如果有特大或特小的极端值时。则采用开口式,将极端值归入开口组中。
  • 计算各组的频数
    经过上述三个步骤以后,就可以把总体各单位按变量值的大小分配到各组。计算各组的次数和频率

相关文章

网友评论

      本文标题:数据分析2-频数分布

      本文链接:https://www.haomeiwen.com/subject/xtoiqftx.html