美文网首页医学生的统计学习
4. 频数表,直方图,概率分布曲线-2

4. 频数表,直方图,概率分布曲线-2

作者: 路人乙小明 | 来源:发表于2019-03-22 12:28 被阅读0次

4. 离散型变量的中间值计算

和平均值不一样,中位数表示的是排在中间的那个数。具体的求法,根据样本量分下面两种情况:

  1. n是奇数,则中位数是第\frac{n+1}{2}
  2. n是偶数,则中位数是第\frac{n}{2}个数和第\frac{n}{2}+1个数的和除以2。

其实不管是离散还是连续变量,肯定都是可以排出一个顺序的,所以上面的方法也适用于连续型变量的中间值计算。但是如果手上拿到的是一个频数表,比如我们回到上一篇讲到的数据chap4_1.xlsx

score离散数据频数表

对于这种数据如何求中间值呢?当然你可以按照频数一个一个写,就像这样: 4, 10, 10, 11, 11, 11, 12, 12, ...。然后从里面找第50个(100/2)和第51个(100/2+1),两个数相加除以2。但是这么做有点笨。一般是额外再做一列累积频数。累积频数在excel里有很多计算方式,我是把score这一列升序排列,然后使用=SUMIF([score],"<="&[@score],[freq])计算累积求和。

筛选后的频数表

从这个表里可以看到直到24这个score,累积频数是50(包括这3个24,或者说,第3个24排在第50位),所以第51位就是24下面的score: 25,两个数字相加除以2,得到24.5。

顺带一提,在excel里面真想求中位数的话,正常人是使用=median()这个公式的,比如在这个工作表里,我用的是=MEDIAN(表1[score])。但是一顿乱算也很有意思呀,对吧。

5. 连续型变量的中间值计算(根据频数表)

接下来看一下怎么使用分组频数表计算中位数。看一下工作表J13
到L26这个区域。

分组频数表

对于这种频数表,显然你不能用第50位的中间值(midpoint)加上第51位的中间值,然后除以二,对吧?毕竟组的中间值不代表实际的数据。那对于这种情况应该如何求中位数呢?首先还是要借助累积频数。从表里可以看到90~95这一档结束以后,累积频数是44,而到了95~100这一档结束以后,累积频数到了64。所以我们的中位数就在95~100这一档。

在进一步讲以前,先要说明,下面这些是当你只有这么一个频数表,没有原始数据时候的做法。还是那句话,当你有原始数据的时候,正常人的做法是使用=median()这个公式。说回现在这个表,如果只有这个表,没有原始数据,那又应该怎么求中位数呢?

中位数怎么求

这个过程有那么点绕所以还是画一个图好了。因为95~100这个区组横跨了第50和第51个数,所以我们主要关注这个区组。这个区组开始以前,累积频数已经到了44。然后我们往后数20个数,就到了这个区组结束的地方。现在假设这个区组里面,各个数之间是等差分布的,于是可以有第50个数(median, 也就是图中的x_1)和本组最小值min(95)之间的距离, 组距size (5),50这个顺序号rank,上个区组的累积频数cumulate(44),以及本区组的频数freq(20), 由三角形底边和高等比例原则(我瞎说的名称……)这些变量有下面的关系

\frac{x_1-min}{size}=\frac{rank-cumulate}{freq}

在当前的数据里则有

\frac{x_1-95}{5}=\frac{50-44}{20}

于是x_1可求得是96.5,另外第51位是96.75,两个加起来除以2就是96.625。顺便一提,对原始数据使用=median()求得的中位数是96.5

那么当我们用变量的值(或者区组)作为横坐标,频数作为纵坐标的时候,就可以画出一幅图,显示变量在各个取值区间里,频数哪里比较大,哪里比较小;是左右对称呢,还是偏向一边,是比较集中呢,还是比较松散,这种图,叫做直方图

6. 概率分布函数(probability distribution function,a.k.a, pdf)

直方图

其他未在文中标出的引用

如何在excel里生成一个直方图
关于频数表、平均值、中位数的简单统计视频教程

相关文章

网友评论

    本文标题:4. 频数表,直方图,概率分布曲线-2

    本文链接:https://www.haomeiwen.com/subject/ehclvqtx.html