美文网首页
【读书笔记】-003-《人人都会数据分析》-生活案例1

【读书笔记】-003-《人人都会数据分析》-生活案例1

作者: 张雅琛 | 来源:发表于2020-02-19 22:13 被阅读0次

    生活案例


    算数平均数

    使用算术平均值了解公司的待遇水平

    某个互联网创业公司目前有30名员工,分成三个月薪收入等级,每个等级包括10名员工,且每个月薪等级内有一万元的波动区间。30名员工的月薪收入情况如表所示,求该互联网创业公司员工的平均月薪。

    员工号 1 2 3 4 5 6 7 8 9 10
    第一级 24000 26500 21000 23500 29800 26700 25800 23600 24900 20500
    员工号 11 12 13 14 15 16 17 18 19 20
    第二级 16500 13200 18900 17500 14700 13500 16400 17900 15700 12000
    员工号 21 22 23 24 25 26 27 28 29 30
    第三级 8600 5000 4900 7600 8600 4500 6700 3000 4800 9000

    案例分析:本案例中,既可以用简单算术平均值的计算公式计算整个公司的平均月薪,也可以用加权算术平均值的计算公式计算,这两种计算方式的结果是相同的。

    简单算数平均值计算过程如下:
    \overline {x}=\frac{x_1+x_2+\cdots +x_n }{n}=\frac{24000+26500+\cdots+9000}{30}=15510
    加权算数平均值计算的过程如下:
    \overline{x}_1 =\frac{x_{11}+x_{12}+\cdots +x_{1n} }{n}=\frac{24000+\cdots+20500}{10}=24630\\ \overline{x}_2 =\frac{x_{21}+x_{22}+\cdots +x_{2n} }{n}=\frac{16500+\cdots+12000}{10}=15630\\ \overline{x}_3 =\frac{x_{31}+x_{32}+\cdots +x_{3n} }{n}=\frac{8600+\cdots+9000}{10}=6270\\ m=\frac{f_1\overline{x}_1+f_2\overline{x}_2+\cdots+f_k\overline{x}_k}{f_1+f_2+\cdots+f_k}=\frac{10\times24630+10\times15630+10\times6270}{10+10+10}=15510
    从两种计算结果可知,该互联网创业公司的员工平均月收入为15510元。此外,从该案例还能知道简单算术平均值是加权算术平均值的特殊形式,简单算术平均值可以看作是所有数值的权重都为1的加权算术平均值,即所有数值的重要性相同。


    几何平均值

    使用几何平均数识别生产线上的隐形损耗

    南方某省的山区县有一家食品工厂,该工厂新引进的生产线由4道工序组成,经过一年的调试生产,每道工序的产品合格率分别是85%、97%、94%和92%,求这条生产线的平均产品合格率。

    案例分析:因为该食品工厂的生产工艺是连续性生产,只有上一道工序的合格品才能进入下一道工序中,所以每道工序的合格率之间是乘积关系。因此,该生产线的产品平均合格率应用几何平均值表示。
    \overline{x}_j=\sqrt[n]{x_1x_2\cdots x_n}=\sqrt[4]{85\%\times97\%\times94\%\times92\%}=91.9\%
    从计算结果可知,该食品工厂新引进生产线的平均产品合格率为91.9%,低于最后一道工序的产品合格率,也就是最终产品合格率92%。连续性生产线的平均产品合格率能够代表整条生产线的生产情况,特别是前段工序合格率较低时,平均产品合格率能够将这些情况真实地反映出来,不至于造成成本黑洞,让管理者忽视返工和返修产品所造成的成本。


    众数

    使用众数制定服装企业的生产计划

    服装生产企业在上市新款服装前都需要调研市场需求,其中很重要的一项调研内容就是新款服装不同尺寸的市场需求情况,尽可能地避免出现尺寸断码或尺寸滞销的情况。某知名服装生产企业的市场部在前期的服装调研中发现,与该企业即将上市的一款服装类似的款式在商业街专卖店一天销售了200件,其中165cm的有27件,170cm的有80件,175cm的有65件,180cm的有20件,185cm的有8件。该服装生产企业该如何安排生产计划才能尽量满足市场的需求,避免出现断码和滞销的情况。

    案例分析:人们穿着的服装和鞋帽尺寸对于生产厂商非常重要。假设用算术平均值计算200件服装的平均尺码为172.55cm,这个尺码显然不能作为生产尺码,服装生产企业只能参考服装和鞋帽尺寸的众数进行生产才有意义。如果市场部的调研结果显示售出的200件服装中众数为170cm,那么该服装生产企业在安排生产计划时,170cm和175cm尺寸的应该多安排生产计划,而180cm和185cm尺寸的应该少安排生产计划。


    中位数

    使用中位数识破招聘启事的工资陷阱

    近几年,每年的大学毕业生人数都在500万人以上,2016年甚至达到765万人,想要找到一份好工作越来越难。大学生在参加招聘会时,常会看到招聘岗位介绍中的工资浮动很大。大四学生小王参加招聘会,看到某个岗位的月薪收入标注为3000元到10000元,并应聘成功。如果小王经过调查会发现,该公司这个岗位目前有5名员工,他们的月薪分别为3000元、4000元、4500元、6000元和10000元,那么小王应该如何评定这份工作的发展前途呢?

    案例分析:如果月薪是3000元,那么这份工作的收入不高;如果月薪达到10000元,那么这份工作的工资收入就非常好了。从该公司目前的情况来看,这个岗位的平均月薪为6391元,中位数为4500元,如果看平均工资,这份工作的收入很不错;如果看中位数,那么这份工作的收入一般。从5名员工的月薪来看,差异很大,5000元以下有3人,5000元以上只有两人,所以应该考虑中位数4500元作为这份工作的代表工资,因为平均工资被10000元的员工拉高了,甚至高于排名第二的员工的月薪收入。


    极差

    使用极差描述气温的变化幅度

    每日天气预报都会播报当天气温的最高温度和最低温度。查看历史天气预报,北京在2016年的1月1日、4月1日、7月1日和10月1日的最高温度和最低温度分别为2/-8℃、17/7℃、32/24℃、22/12℃,求这四天每日的温度极差及总的温度极差。

    案例分析:2016年这四天的温度极差分别为10℃、10℃、8℃、10℃,而这四天总的温度极差为38℃。由此可见,虽然北京在不同季节的温度变化很大,达到38℃,但是每日的温差却不大,基本维持在10℃左右。地球之所以能够孕育生命,除了必需的水和空气,温差小也是一个重要的因素。在2016年1月1日这一天,最高温度2℃出现在下午2点,最低温度-8℃出现在凌晨5点到早上8点这个时间段。


    平均偏差

    使用平均偏差评价生产线的稳定性

    某知名啤酒玻璃瓶生产企业新引进了一套德国吹塑设备,希望能够提高玻璃产品质量的稳定性。分别从旧生产线和新生产线随机抽取20个玻璃瓶,测量它们的直径,分析新生产线的稳定性是否比旧生产线生产线的稳定性强。随机抽取的玻璃瓶的瓶底直径测量数据为:

    旧生产线:11.85cm、12.20cm、11.50cm、11.49cm、11.88cm、11.79cm、11.41cm、11.76cm、11.85cm、12.44cm、11.22cm、11.29cm、11.87cm、11.76cm、11.91cm、11.83cm、11.83cm、11.27cm、11.85cm、11.73cm

    新生产线:12.17cm、12.17cm、12.01cm、11.96cm、12.12cm、12.08cm、12.54cm、11.74cm、11.94cm、11.88cm、11.87cm、11.80cm、11.78cm、11.75cm、12.48cm、12.25cm、11.84cm、12.00cm、11.96cm、11.87cm

    案例分析:可以使用平均偏差来表示新吹塑设备生产的产品与旧吹塑设备生产的产品的瓶底直径的波动(变异)程度,波动(变异)程度越小,代表吹塑设备的稳定性越强;波动(变异)程度越大,代表吹塑设备的稳定性越弱。

    旧生产线生产的玻璃瓶的瓶底直径平均偏差为:
    R_{aj}=\frac{\sum|x_i-\overline{x}|}{n}=\frac{|11.85-11.74|+|12.20-11.74|+\cdots+|11.73-11.74|}{20}=0.22
    新生产线生产的玻璃瓶的瓶底直径平均偏差为:
    R_{ax}=\frac{\sum|x_i-\overline{x}|}{n}=\frac{|12.17-12.01|+|12.17-12.01|+\cdots+|11.87-12.01|}{20}=0.17
    对比新吹塑设备和旧吹塑设备的产品平均偏差值可知,新吹塑设备比旧吹塑设备的生产稳定性强,玻璃瓶瓶底直径的平均波动减小了0.05cm。


    方差和标准差

    使用标准差(方差)提高巧克力生产线的工艺水平

    士力架是全球热销的花生巧克力零食,原来每块重55克,为了控制每块士力架的热量,食品企业计划改造生产线,将每块产品的重量降低至52克,同时要求改造后生产线的稳定性要有提高,保证产品的重量控制在51克到53克之间。生产线改造完成以后,为了验证改造项目是否达到成功标准,需要重新测算生产线的生产稳定性。现在从改造后的生产线上随机抽取40块士力架产品,测量它们的重量,重量数据列于表:

    52.76 53.13 51.62 52.57 52.54 51.17 50.76 50.93
    52.07 54.18 53.37 51.41 53.08 52.37 54.81 52.74
    49.04 50.07 52.92 52.05 51.88 53.13 51.16 50.49
    52.15 53.44 51.25 53.13 51.97 52.20 51.00 50.46
    54.00 50.91 51.81 51.87 51.92 52.45 52.14 52.39

    案例分析:生产线的稳定性直接表现为产品的重量波动情况,产品总体的方差或标准差越小,说明生产线的生产稳定性越强。为了验证改造后生产线的生产稳定性,可以计算40块样本产品的方差和标准差,用样本方差和标准差代替总体方差和标准差来评定改造后生产线的生产稳定性。

    首先计算样本产品的重量均值:
    \overline{x}=\frac{\sum_{i=1}^nx_i}{n}=\frac{52.76+53.13+\cdots+52.39}{40}=52.08
    用总体方差和标准差的计算公式计算:
    \overline{x}=\frac{\sum_{i=1}^n(x_i-\mu)^2}{N}=\frac{(52.76-52.08)^2+\cdots+(52.39-52.08)^2}{40}=1.33
    用样本方差和标准差的计算公式计算:
    \overline{x}=\frac{\sum_{i=1}^n(x_i-\overline{x})^2}{n-1}=\frac{(52.76-52.08)^2+\cdots+(52.39-52.08)^2}{40-1}=1.35\\ s=\sqrt{1.35}=1.16
    由于40块产品是抽取的样本,而样本方差是总体方差的无偏估计,所以分母为n-1的样本方差更能够代表产品总体的重量离散程度。从计算结果来看,样本均值为52.08克,非常接近于改造项目的目标52克,而样本的标准差为1.16克,超过了项目提出的产品只能上下波动1克的要求,所以还需要继续调试机器,提高机器的生产稳定性。此外,用总体方差公式计算的结果1.33比样本方差公式的计算结果1.35小,再次说明用分母为n的总体方差公式计算的样本方差会低估数据总体的波动程度。


    变异系数

    使用变异系数客观评定员工绩效

    某机械零件的加工作坊聘用了两个经验丰富的技术工人陈某和王某。陈某每小时平均生产40个零件,标准差是5件。王某每小时平均生产80个零件,标准差为6件。试问哪个工人的产量稳定性比较好呢?案例分析:依据标准差的含义,标准差越小,离散程度越小,稳定性越好,所以陈某的稳定性要比王某好,事实真的如此吗?观察数据后可以发现陈某的标准差虽然比王某高,但王某的生产能力是陈某的2倍。也就是说,6相对于80的变化要小于5相对于40的变化,这就是变异系数的含义,计算过程如下:
    陈某:V_\delta=\frac{\delta}{\mu}=\frac{5}{40}=0.125\\ 王某:V_\delta=\frac{\delta}{\mu}=\frac{6}{80}=0.075
    从计算结果可知,王某的变异系数要小于陈某。也就是说,王某的相对离散程度要比陈某的小,所以王某的生产稳定性要比陈某好。


    概率

    概率是赌场老板制定游戏规则的法宝

    赌场非常赚钱,这是因为赌场老板们非常精通古典概率,所以俗语“十赌九输”不是空穴来风,而是有其概率道理存在的。有一种掷骰子的赌博方式:两个人参与投掷三个骰子,如果三个数相加之和等于9,则甲赢;如果三个数之和等于10,则乙赢。如果既不是9,也不是10,则为平局。这个赌博方式公平吗?

    案例分析:可以先推演一下。
    三个数相加等于9的情况共有6种:(1+2+6),(1+3+5),(1+4+4),(2+2+5),(2+3+4),(3+3+3)
    三个数相加等于10的情况也有6种:(1+3+6),(1+4+5),(2+2+6),(2+3+5),(2+4+4),(3+3+4)

    通过上面的初步推演,相加结果等于9和10的情况数目是相同的,都是6种,那么是否可以得出甲和乙赢得赌局的概率是相同的呢?其实不然,从长远来看,乙肯定会赢甲。三个骰子投掷一次的结果可能性有6×6×6=216种,每种情况的出现次数是不一样的。例如,(3+3+3)只会出现1次,而(3+3+4)却会出现三次,分别是(3,3,4)、(3,4,3)和(4,3,3)。经过进一步的推演,三个骰子的总和等于10的结果将出现27次,而总和为9的结果次数却只有25次,所以在总共27+25=52种决出胜负的结果中,乙赢的概率约为27/52=52%,甲胜出的概率只有25/52=48%,虽然差异不大,但足够乙以此谋生了。古典概率问题经常以上面的形式存在于生活中,如果你不知道古典概率或知道但一时忘记了,那就只能让别人占便宜了。


    离散型概率分布:二项分布

    产品抽检的二项分布应用

    国内某小型手机代工厂的产品不合格率高达10%。某知名品牌手机公司的品控人员到该厂进行供应商审核,对这家工厂的产品进行随机抽检。如果随机抽取5件产品,其中有2件是不合格品的概率有多大?如果随机抽取5件产品,最多有1件是不合格品的概率是多少?案例分析:工厂对产品进行随机抽检,可能得到的抽检结果只有两种:“合格品”和“不合格品”,因此产品的抽检行为是伯努利试验,抽检结果的概率服从二项概率分布。将抽到不合格品定义为“成功”,其发生概率p=10%。假设x表示抽检中抽到不合格品的数量,那么抽检结果的概率服从二项分布x~B(5,0.1)。

    抽查5件产品,其中有2件为次品的概率计算过程为:
    P(x=2)=C_n^xp^xq^{n-x}=C_5^2\times0.1^2\times(1-0.1)^{(5-2)}=\frac{5!}{2!\times(5-2)!}\times0.1^2\times0.9^3\approx0.073
    抽查5件产品,最多有1件不合格品的情况有两种:5件产品中只有1件是不合格品或没有不合格品,因此概率计算过程为:
    P(x\leq1)=p(0)+p(1)=C_5^0\times0.1^0\times(1-0.1)^5+C_5^1\times0.1^1\times(1-0.1)^4\approx0.918


    离散型概率分布:多项分布

    预测足球比赛结果的多项分布应用

    英国超级联赛已经成为世界上最高水平的足球联赛之一,吸引了世界球迷的目光,曼彻斯特联队与曼彻斯特城队的同城德比更是令世界瞩目。截止到2015—2016赛季,曼彻斯特联队在历史上和曼彻斯特城队交手171次,打进250球丢234球,拿到了71胜51平49负的战绩。如果在2016—2017赛季,曼彻斯特联队与曼彻斯特城队将进行6场比赛,求曼联2胜1平3负的概率是多少?

    案例分析:足球比赛的结果有胜、平、负三种,根据历史战绩,我们可以得到每种结果的历史统计概率,假定在新的比赛开始前,胜平负的历史统计概率保持不变(实际上,随着球队各种情况的变化,胜平负的概率会发生变化),运用多项分布(三项分布)的概率计算公式可以计算得到6场比赛中曼联2胜1平3负的概率。
    p_w=\frac{71}{71+51+49}=\frac{71}{171}\\ p_D=\frac{51}{71+51+49}=\frac{51}{171}\\ p_L=\frac{49}{71+51+49}=\frac{49}{171}\\ P(2,1,3)=\begin{pmatrix} &6 \\ 2&1&3 \\ \end{pmatrix}\begin{pmatrix} \frac{71}{171}\end{pmatrix}^2\begin{pmatrix} \frac{51}{171}\end{pmatrix}^1\begin{pmatrix} \frac{49}{171}\end{pmatrix}^3\\ =\frac{6!}{2!1!3!}\times \begin{pmatrix} \frac{71}{171}\end{pmatrix}^2\begin{pmatrix} \frac{51}{171}\end{pmatrix}^1\begin{pmatrix} \frac{49}{171}\end{pmatrix}^3 \approx0.12\%


    离散型概率分布:超几何分布

    超市抽奖活动的超几何分布概率

    某超市举办开业十周年庆典,在表演间隙进行抽奖活动,抽奖箱中总共有20个乒乓球,其中只有2个乒乓球上写有“中奖”两字。抽奖时,每次抽出2个乒乓球,其中有几个写有中奖字样,全体员工就获得几份礼品。试求抽到0个,1个和2个带有“中奖”字样乒乓球的概率?

    案例分析:因为是从有限总体中进行无放回抽样,所以每次抽取乒乓球前,带有“中奖”字样字样的乒乓球比例都会发生变化,所以应该用超几何分布的概率质量函数来计算概率:
    P(x=0)=\frac{C_2^0C_{18}^2}{C_{20}^2}=0.8053\\ P(x=1)=\frac{C_2^1C_{18}^1}{C_{20}^2}=0.1895\\ P(x=2)=\frac{C_2^2C_{18}^0}{C_{20}^2}=0.0052\\
    从概率可知,无法中奖的概率竟然高达80.53%,而中奖的概率仅有19.47%。可见该超市是不希望员工中奖的。

    我们上面提到,如果总体数目是样本容量的十倍以上,可以用二项分布的概率质量函数近似超几何分布的概率质量函数。在本案例中,总体容量为20,正好是样本容量2的10倍,尝试用二项分布的概率质量函数来计算员工中奖概率,中奖乒乓球的比例是10%,随机抽取2个乒乓球,二项分布概率质量函数的计算过程如下:
    P(x=0)=C_n^xp^xq^{n-x}=C_2^0\times0.1^0\times(1-0.1)^{2-0}=0.8\\ P(x=1)=C_n^xp^xq^{n-x}=C_2^1\times0.1^1\times(1-0.1)^{2-1}=0.18\\ P(x=2)=C_n^xp^xq^{n-x}=C_2^2\times0.1^2\times(1-0.1)^{2-2}=0.009\\


    离散型概率分布:泊松分布

    使用泊松分布进行杂货店的库存管理

    小本经营的杂货店,大部分本金都滞留在库存货物上,库存周转越慢,经营压力越大,特别是单价较贵的商品,买的人很少,周转很慢。如何合理安排这些单价高的商品库存是许多杂货店老板的头痛问题。现在知道某家小杂货店,过去一年时间里,平均每周才卖出2块进口巧克力,那么该店的进口巧克力的最佳库存以多少块为宜呢?案例分析:假设不存在季节因素的影响,可以近似认为该杂货店满足以下条件:顾客购买进口巧克力是小概率事件;购买进口巧克力的顾客是独立的,不会互相影响;顾客购买进口巧克力的概率是稳定的,所以可以用泊松分布的概率质量函数计算得到一个关于销售量与发生概率的梯度表格。泊松分布的概率质量函数为:
    P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

    • P表示每星期销售出k块巧克力的概率;
    • k表示每星期销售进口巧克力的数量,可以取0,1,2,3,…;
    • λ表示过去每星期销售进口巧克力的平均数量,本案例λ的值为2。

    根据泊松分布的概率质量函数,可以计算销售出0、1、2、3……块巧克力的概率,并得到它们的累计概率,结果如表2-7所示。从计算结果可知,如果进口巧克力的存货为4块,那么有95%的概率不会缺货,5%=1/20,即平均19周发生一次缺货情况;如果保持5块进口巧克力的库存量,那么有98%的概率不会缺货,2%=1/50,即平均49周发生一次缺货情况。杂货店老板可以根据自己的资金实力以及对缺货风险的承担能力来决定自己店铺进口巧克力的库存量。

    • 每周巧克力销售量及其发生概率
    平均每周售出进口巧克力数量 概率 累积概率
    X=0 13.5% 13.5%
    X=1 27.1% 40.6%
    X=2 27.1% 67.7%
    X=3 18.0% 85.7%
    X=4 9.0% 94.7%
    X=5 3.6% 98.3%
    X \geq 6 1.7% 100%

    使用二项分布和泊松分布分析准备的试卷数量是否足够

    一家大型工厂最近聘用了100名新员工,需要进行岗前培训。根据以往培训结束后的考核情况,人事经理估计有4%的培训者不能通过考核,因此提前准备了6份第二次考核的考卷,分别用二项分布的概率质量函数和泊松分布的概率质量函数计算恰有6个人不能通过考核的概率,看这6份考卷是否足够。

    案例分析:如果认为岗前培训后考核的合格率是稳定不变的,那么考核就是一个二项分布试验。在本案例中,可以假设p代表没有通过考核的人员比例,n=100,p=0.04,q=1-0.04=0.96,于是,由二项分布概率质量函数计算恰有6人没有通过考核的概率为:
    P(X=6)=C_n^k(\frac{\lambda}{n})^k(\frac{\lambda}{n})^{(n-k)}=C_{100}^6\times0.04^6\times0.96^{94}=0.1053
    因为n=100且p=0.04,所以可以使用泊松分布的概率质量函数代替二项分布的概率质量函数进行近似计算,结果应该与二项分布函数的计算结果相近。利用泊松分布的概率质量函数的计算结果为:
    \lambda=np=4\\ p(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-4}\times4^6}{6!}=0.1042
    从概率计算结果来看,泊松分布的概率质量函数的计算结果为0.1042,与二项分布的概率质量函数的计算结果0.1053非常接近,说明在n≥100且p≤0.05的条件下,用泊松分布近似二项分布的效果极好。


    离散型概率分布:指数分布

    指数分布告诉你,为社么电子产品保修三年

    电子成品因为它们不易坏的特性,所以保修期都比较长。某著名手机厂商生产的某型号手机平均10年才出现一次大的故障。为了制造销售热点,公司想将保修期提高到15年,但又不想增加过多的成本投入,所以需要考虑以下问题:①该型号手机使用15年后还没有出现大故障的比例;②如果厂家想提供大故障免费维修的质量担保,基于成本考虑,保修数量不能超过全部产量的20%,那么提供多长的保修年限最适宜。

    案例分析:因为电子产品的耐用性,短期内发生两次大故障的概率非常小,案例需要分析的是不同时间段内发生大故障的手机比例,换个角度可以解释为不同时间段内该型号手机发生大故障的概率,可以用指数分布的概率公式计算概率。该型号手机使用15年后还没有出现大故障的比例。已知该型号的手机平均10年发生一次大的故障,所以,单位时间(1年)内,发生故障的次数为λ=1/10=0.1,代入指数分布的概率计算公式:
    P(X\geq15)=e^{-\lambda x}=e^{-0.1\times15}\approx 0.223
    从计算结果可知,该型号手机使用15年后没有发生大故障的概率是22.3%。换一种说法,就是只有22.3%的该型号手机在使用15年后没有发生大故障,而77.7%的手机都将在15年内进行维修,这个成本是极高的,远远超过20%的承受能力。厂家要求免费保修的比例不超过全部产量的20%,也就是要求在保修年限内发生大故障的手机比例不超过不超过20%,可以列出不同保修年限对应的发生大故障手机的比例,如表:

    保修年限 累积概率P(X<x)=1-e^{-\lambda x}
    1 9.5%
    2 18.1%
    3 25.9%

    从表中可以看到:担保2年,需要维修的手机比例就达18.1%,担保3年,出现大故障的手机比例增加到25.9%,已经超过20%。所以,厂家应以2年为免费维修担保期。由此可见,如果厂家没有经过数据分析,盲目地推行15年的保修期承诺,将会给企业造成意想不到的沉重负担。


    连续型概率分布:均匀分布

    使用均匀分布分析家具物流的送货时间

    现在通过网络购买家具的家庭越来越多,所以逐渐形成专门针对家具的物流公司,这些物流公司不仅送家具,而且还提供上门安装服务。某物流公司统计了他们公司每个班组组装一套家具的时间为25分钟到35分钟,且组装时间服从均匀概率分布。求组装一组家具的组装时间在28分钟到30分钟之间的概率以及多于32分钟的概率。

    案例分析:因为该物流公司每个班组组装一组家具的时间在25分钟到35分钟这个时间段内,且在这个时间段内的任意时间点完成的概率相同,所以组装完成时间的概率服从均匀概率分布。

    组装一组家具的时间落在28分钟到30分钟之间的概率为:
    P(28<x\leq30)=\frac{l}{b-a}=\frac{30-28}{35-25}=0.2
    因为超过35分钟的概率为0,所以多于32分钟完成组装的概率为:
    P(32<x\leq35)=\frac{l}{b-a}=\frac{35-32}{35-25}=0.3
    物流公司可以根据这个时间概率分布合理安排不同运输距离的班组的装货量,以便能够提高家具的送达和安装效率,提高顾客满意度。


    连续型概率分布:正态分布

    使用正态分布分析研究生毕业论文的完成时间

    假设某科研院所的研究生完成一篇SCI论文的时间服从正态分布,完成时间的平均值为2500小时,标准差为400小时,现随机找到该科研院所的一名研究生,求下面三种情况的发生概率:①他完成论文的时间超过2700小时的概率;②他完成论文的时间低于2000小时的概率;③他完成论文的时间在2400小时到2600小时之间的概率。

    案例分析:用随机变量x表示论文完成的时间,因为该科研院所研究生完成论文的时间服从正态分布,所以随机变量x的正态分布可以表示为x~N(2500,400^2),这是一个普通正态分布。因为直接通过积分计算上面三种情况的概率是非常困难的,所以首先将普通正态分布转换成标准正态分布,然后再通过标准正态分布表查出相应问题的概率值。

    ①完成论文的时间超过2700小时的概率,也就是求概率P(x>2700);首先计算x=2700在标准正态分布上的对应值:
    Z_{2700}=\frac{x-\mu}{\delta}=\frac{2700-2500}{400}=0.5
    如图,概率P(x>2700)在标准正态分布上对应的面积为P(z>0.5),可以查询标准正态分布概率表,得到这块面积所代表的概率值。查询附录中的标准正态分布概率表,表中第一列是z值,第一行是z值的补充值,其余数值为随机变量x到0之间的积分面积,也就是概率值。上面求得2700小时对应在标准正态分布上的值为z=0.5,找到标准正态分布概率表的z=0.5行,再查z=0.5行与z=0.00列的交叉单元格数值为0.1915,该值对应正态分布图的z=0.5到z=0之间的积分面积。因此需要用0.5(正态分布的对称性质,z=0左右两侧的概率相等,都等于0.5)减去0.1915,等于0.3085,即该学生完成论文时间超过2700小时的概率为P(x>2700)=0.3085。

    ②完成论文的时间低于2000小时的概率,也就是求概率P(x<2000);计算x=2000在标准正态分布上的对应值:
    Z_{2000}=\frac{x-\mu}{\delta}=\frac{2000-2500}{400}=-0.25
    如图,我们要求的是z<-1.25的概率概率面积。附录的标准正态分布表没有z为负值的概率,但是可以根据正态分布的对称性质,z<-1.25的概率面积与z>1.25的概率面积完全相同,因此只需查z>1.25的概率即可。找到标准正态分布概率表的z=1.2行和z=0.05列,两者的交叉数值等于0.3944,该数值代表z=0到z=1.25之间的概率面积,因此需要再用0.5减去0.3944,得到的概率为0.1056,即P(x<2000)=0.1056。

    ③完成论文的时间在2400小时到2600小时之间的概率,也就是求P(2400<x<2600);
    Z_{2600}=\frac{x-\mu}{\delta}=\frac{2600-2500}{400}=0.25\\ Z_{2400}=\frac{x-\mu}{\delta}=\frac{2400-2500}{400}=-0.25
    我们要求的是-0.25<z<0.25的概率面积。查标准正态分布表,z=0.2行与z=0.05列,行与列交叉处的值为0.0987,根据正态分布对称性质,所求的概率等于P(2400<x<2600)=0.0987×2=0.1974。


    使用峰度与偏度检验政府精准扶贫效果

    西部某县的统计局为了分析自执行特色精准扶贫措施以来,辖区内的农村家庭年收入情况是否有显著性的改善,对辖区内的农村家庭进行抽样调查。将收集到的数据整理后列于表2-9。通过计算峰度和偏度系数,说明该县农村家庭年收入的分布情况,以及下一步需要采取的精准扶贫措施。

    案例分析:通过分析抽样家庭的年收入分布情况,可以大体了解辖区内农村家庭年收入的分布情况,从而能够对已经执行的特色精准扶贫措施进行效果评估和改进,以达到整体提高农村家庭年收入的扶贫目标。首先计算样本农村家庭年收入的均值和标准差:
    \overline{x}=\sum_{i-1}^kx_iF_i=(2.5\times2.28\%)+\cdots+(52.5\times4.94\%)=21.429\\ \delta=(x_i-\overline{x})^2F_i=(2.5-21.429)^2\times2.28\%+\cdots+(52.5-21.429)^2\times4.94\%=12.09
    峰度系数为:
    kurtosis=\frac{\sum_{i-1}^k(x_i-\overline{x})^4F_i}{\delta^4\sum_{i-1}^kF_i}=\frac{72521.24}{12.09^4\times 1}=3.33
    偏度系数为:
    kurtosis=\frac{\sum_{i-1}^k(x_i-\overline{x})^3F_i}{\delta^4\sum_{i-1}^kF_i}=\frac{1689.25}{12.09^3\times 1}=0.956
    从峰度系数和偏度系数的结果来看,峰度系数等于3.33,大于3,说明该县农村家庭收入呈尖峰分布。也就是说,大部分农村家庭的收入相当;偏度系数等于0.956,大于0,说明收入数据是右偏的,长尾拖在右边,这说明有小部分农村家庭的收入较高。综合此次调查的农村家庭平均年收入21429元,说明该县大部分农村家庭的年收入还处在低收入水平,不过有些家庭的收入已经明显增加,这说明特色精准扶贫措施起到了一定的效果,还需要加大扶贫力度,让大多数农村家庭的年收入增加。


    正态分布作为二项分布近似

    使用正态分布和二项分布分析足球比赛的猜边概率

    足球比赛开始前需要进行掷硬币猜边。首先指定一队选正面,另一队选反面,然后裁判高高抛起硬币,落地后硬币的哪面向上,那队就首先开球。某支球队近期需要进行14场比赛,假设该队队长都是选择正面,那么在14次比赛前的所有掷硬币猜边,出现8次、9次或10次正面的概率分别是多少?

    案例分析:由于掷硬币属于古典事件,正面和反面朝上的概率相等,都是50%,所以可以用正态分布近似二项分布,两者的概率计算结果相似。二项分布是离散型分布,可以直接用概率质量函数计算概率:
    p(8\leq x \leq10)=p(8)+p(9)+p(10)\\ p(8)=C_n^xp^xq^{(n-x)}=C_{14}^80.5^80.5^{(14-8)}=0.1833\\ p(9)=C_n^xp^xq^{(n-x)}=C_{14}^90.5^90.5^{(14-9)}=0.1222\\ p(10)=C_n^xp^xq^{(n-x)}=C_{14}^{10}0.5^{10}0.5^{(14-10)}=0.0611\\ p(8\leq x \leq10)=0.1833+0.1222+0.0611=0.3666
    正态分布是连续型分布,可以对概率密度函数进行积分计算概率,也可以转换成标准正态分布,查询标准正态分布概率表得到概率。

    因为np=nq=0.5×14=7>5,满足上面提到的二项分布近似正态分布的通用条件,所以该案例可以用二项分布的正态近似。该案例的二项分布近似于均值为np=14×0.5=7,方差为npq=14×0.5×0.5=3.5的正态分布。因为正态分布用积分计算概率的方式不容易操作,所以先将均值为np=7、方差为npq=3.5的正态分布转换为标准正态分布,然后查询标准正态分布概率表得到相应概率。
    查标准正态分布表,可以得到相应区间的概率值

    对比二项分布和正态分布的概率结果,二项分布概率质量函数的概率计算值等于0.3666,正态分布的概率近似结果等于0.3629,两者的概率计算结果基本相同。


    正态分布作为泊松分布近似

    使用正态分布和泊松分布分析民营电缆厂的良品率

    某家民营电缆厂新接了一笔订单,采购方要求该厂供给的电缆每10米的缺陷数不能超过6个。根据以往产品的质检数据,该厂的电缆以10米为基本单位,平均每10米有8个缺陷。如果该电缆厂不改进技术,预计有多少产品会是不合格品?

    案例分析:按照目前的生产工艺,该工厂生产的电缆每10米平均缺陷数是8个,而采购方要求电缆每10米不能超过6个缺陷,因此每10米只有0到6个缺陷的电缆才是合格品,超过6个缺陷的电缆都是不合格品。本案例需要计算的是每10米超过6个缺陷的产品比例。

    (1)使用泊松分布概率质量函数计算概率

    该民营电缆厂目前的生产水平是平均每10米有8个缺陷,即λ=8,现在需要计算每10米缺陷数为0到6个的产品比例。
    P(0\leq x\leq6)=P(0)+\cdots+P(6)\\ p(k=0)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^0}{0!}=0.000335\\ p(k=1)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^1}{1!}=0.002684\\ p(k=2)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^2}{2!}=0.010735\\ p(k=3)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^3}{3!}=0.028626\\ p(k=4)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^4}{4!}=0.057252\\ p(k=5)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^5}{5!}=0.091603\\ p(k=6)=\frac{e^{-\lambda}\lambda^k}{k!}=\frac{e^{-8}8^6}{6!}=0.122138\\ P(0\leq x\leq6)=0.000335+\cdots+0.122138=0.313373\\
    根据泊松分布的计算结果,按照目前的生产水平,大概只有31.34%的产品能够满足采购方的要求,而有大约68.66%的产品不能达到采供方的质量要求,属于不合格品。

    (2)正态分布质量密度函数计算概率

    因为λ=8>5,所以可以用正态分布作为泊松分布的近似计算概率。用连续型分布近似离散型分布计算概率需要进行连续性修正,泊松分布的概率区间是P(0≤x≤6),而正态分布修正后的概率区间应为P(-0.5≤x≤6.5)。已知泊松分布近似于μ=σ2=λ=8的正态分布,正态分布的概率计算过程如下:
    P(a \leq x \leq b )=P(\frac{a-\mu}{\delta}\leq z \leq \frac{b-\mu}{\delta})\\ p(-0.5\leq x \leq6.5)=P(\frac{-0.5-8}{\sqrt{8}}\leq \frac{6.5-8}{\sqrt{8}})=P(-3.01\leq z\leq-0.53)
    查标准正太分布概率表得:
    P(-2.83\leq z\leq0)=P(0\leq z\leq2.83)=0.4987\\ P(-0.53\leq z\leq0)=P(0\leq z\leq0.53)=0.2019\\ P(-2.83\leq z\leq-0.53)=0.4987-0.2019=0.2968\\
    根据标准正态分布概率表的概率查询和计算结果,该民营电缆厂目前能够满足采购方要求的合格产品仅为29.68%。

    比较泊松分布和正态分布的概率计算结果,当λ=8时,正态分布近似泊松分布的概率计算值29.68%与泊松分布的概率计算值31.33%依然存在差异,但是结果已经非常接近,估计误差仅为0.2%,在可以接受的范围内。


    相关文章

      网友评论

          本文标题:【读书笔记】-003-《人人都会数据分析》-生活案例1

          本文链接:https://www.haomeiwen.com/subject/rcizfhtx.html