美文网首页
如果绘制箱线图-Excel2013

如果绘制箱线图-Excel2013

作者: 没有蜡的产品随记 | 来源:发表于2017-09-17 20:53 被阅读560次

文章简介

继续学习,这次学习了箱线图的概念、四分位数计算以及箱线图的绘制,分享给大家。

箱线图简介

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。

四分位数详解

四分位数概念

四分位数,就是把组中所有数据由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。

* 第一四分位数(Q1),又称“较小四分位数”或“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

*第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

* 第三四分位数(Q3),又称“较大四分位数”或“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

* 第三四分位数与第一四分位数的差距又称四分位间距(InterQuartile Range,IQR)。

四分位数计算

计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):

* Q1的位置=(n+1)/4

* Q2的位置=(n+1)/2

* Q3的位置=3(n+1)/4

(1)如果数据总数n为奇数的,计算结果套用上面的公式即可。

例如数据组:“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结为“5、7、15、35、39、40、41、42、45、47、48”。计算的四分位数为:

* Q1的位置=(11+1)/4=3,该位置的数字是15。

* Q2的位置=(11+1)/2=6,该位置的数字是40。

* Q3的位置=3(11+1)/4=9,该位置的数字是45。

(2)如果数据总数n为奇数的,需要要原始公式的基础上取区间值相加。

例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:

* Q1的位置=(6+1)/4=1.75

* Q2的位置=(6+1)/2=3.5

* Q3的位置=3(6+1)/4=5.25

在确定对应的四分位数时,用计算的Q值的整数位代表的数值加上本身乘于Q值作为该四分位数。

例如计算上面的Q1,因为Q1的位置数值为1.75,取整为1,1代表的数值为8,所以Q1=8+(17-8)*0.75=14.75;

同理:

Q2=38+1×0.5=38.5,Q3=42+(44-42)×0.25=42.5

四分位数计算-excel函数QUARTILE

可以用QUARTILE(array,quart)函数计算四分位数。

箱线图结构

箱线图包括一个矩形箱体和上下两条竖线,箱体表示数据的集中范围,上下两条竖线分别表示数据向上和向下的延伸范围,效果图如下:

图-箱线图的结构

四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。则整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。

Whisker上限是延伸至距框顶部1.5倍框高范围内的最大数据点,Whisker下限是延伸至距框底部1.5倍框高范围内的最小数据点,超出Whisker上限或下限的数值将使用星号“*”表示。但是,在Excel中绘制箱线图需要借助股价图来实现,因此无法展现异常值,Whisker上限将延伸至数据最大值的位置,Whisker下限将延伸至数据最小值的位置。

绘制箱线图

计算 四分位数

下图中的A2:F8区域和H2:M8区域分别是华北和华南是某段时间客户订单收货天数的统计结果,C11:C15和J11:J15是利用QUARTILE函数计算的华北、华南收货天数的四分位数结果。

图-收货天数的四分位数计算结果

图表中,以C11为例,计算公式表达式为:=QUARTILE($A$2:$F$8,0)

准备股价图数据

在Excel中绘制箱线图需要借助股价图的“开盘-盘高-盘底-收盘”图来实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1、Q0、Q2、Q4。首先要准备好表格数据。

根据对应关系,在表格的区域分别输入华北、华南客户的Q1、Q0、Q2、Q4统计数字,在首列日期中输入一个日期型数据(注意,必须为日期型),如“2013/1/1”。然后在尾列行中输入华北、华南客户,如下图所示。

插入股价图

框选日期以及到Q4的数据,插入图表,选择股价图-收盘图

添加的图表效果图如下:

将股价图转变为箱线图

可以看出,四分位间距框的顶部线条使用的是Q4(最大值)位置,而是不是箱线图要求的Q3位置。需要添加对应的Q3数据。

* 点击图表右侧的【图表筛选器】,点击【选择数据】进入【选择数据源】对话窗。

图-图表筛选器

* 添加Q3数据列,点击【添加】,名称命名为“Q3”,数据选择Q3的数据列。

添加Q3数据列后的图表如下图.Q3数据点在图中箭头所指。

显示中位数线

显示中位数线即Q2,只要调整图标中系列3的样式即可。

* 双击选中【系列3】,右键选择【设置数据系列格式】

* 选择【填充】,选择【标记】,勾选【内置】,样式选择线条类型的就行了。

* 效果图如下:

美化图表

* 修改分类轴(横轴)标签。因为绘制股价图的时候要日期,现在绘制完毕可以在原图表将日期分别改为“华北”、“华南”,修改完毕图表的类型自动更新。

* 去除图例栏,即去掉“系列1”等内容。

* 修改标题为“客户收货天数分析”

最终图表如下

分析图表

由图可以看出,华北和华南客户的中位数位置、四分位间距框的位置与高度基本相同,说明两区域的客户收货天数基本相同。但是,从Whisker上限和Whisker下限看,华南客户的收货天数范围小于华北客户,说明流程更加稳定。

------------------------

参考文献:

1、Excel-箱线图(数据分布)分析

相关文章

网友评论

      本文标题:如果绘制箱线图-Excel2013

      本文链接:https://www.haomeiwen.com/subject/dmkmsxtx.html