【读书笔记】-003-《人人都会数据分析》-生活案例2

作者: 张雅琛 | 来源:发表于2020-02-23 23:15 被阅读0次

【读书笔记】-003-《人人都会数据分析》-生活案例2
【读书笔记】-003-《人人都会数据分析》-生活案例1
【读书笔记】-003-《人人都会数据分析》-第1章生活在数据时代
2017-11《人人都会数据分析：从生活实例学统计》.pdf
人人都会数据分析大纲
第四阶段爬虫整理
做“数据分析”你要注意这些！
「数据采集」- 埋点2
运营案例拆解 | 人人贷：我，更懂人性
spark第二天作业

Z分布与总体均值的区间估计

估算西部儿童看电视时间的置信区间

西北某大学的社会学教授有一个研究课题，研究居住在西北某市乡村的10岁到12岁儿童的计算机使用习惯，该市乡村在这个年龄区间的儿童人数为39200人。为了节约成本，教授及其学生从儿童总体中无放回地抽取50个儿童作为随机样本，得到他们一周7天使用计算机的平均时间为12.5小时。假设该市的乡村儿童一周7天使用计算机的时间总体服从正态分布，且标准差为2.2小时，则该市乡村儿童一周7天平均使用计算机时间的96%置信区间是多少？

案例分析：因为该市乡村儿童一周7天使用计算机的时间总体服从正态分布且总体标准差已知；样本容量为50人，远远小于39200人的儿童人数总体，所以该案例适合使用Z分布求取置信区间。

置信水平为96%，即1-α=0.96，α=0.04，α/2=0.02。查标准正态分布表，面积最接近0.5-0.02=0.48的对应的z值等于 $z_{0.02}=2.05$ 。此外，尽管是从有限总体进行无放回抽样，但是由于样本容量为50，小于0.05×39200，因此不用添加修正因子。列出总体均值区间估计的已知条件：
$\delta_c=\frac{\delta_z}{\sqrt{n}}=\frac{2.2}{\sqrt{50}}=0.31\\ Z_{0.02}=2.05\\ \overline{x}=12.5$
将上述已知条件代入Z分布的置信区间计算公式：
$\overline{x}-Z_{\frac{\alpha}{2}}\frac{\alpha_z}{\sqrt{n}}\leq\mu_z\leq\overline{x}+Z_{\frac{\alpha}{2}}\frac{\alpha_z}{\sqrt{n}}\\ 12.5-2.05\times0.311\leq\mu_z\leq12.5+2.05\times0.311\\ (12.5\pm0.64)小时$
从计算结果可知，该市乡村儿童有96%的可能性，平均每周使用计算机的时间为11.86小时到13.14小时。

估算大学生每日体育锻炼时间的置信区间

随着各种电子产品的普及，青少年的体质有弱化的趋势，不时有大学生体质测试死亡的事故发生。某大学的计算机学院为了防患于未然，调查学院学生目前的运动情况。该学院全部学生人数为1800人，从中随机抽取学生100人，得知他们平均每天用于体育锻炼的时间为26分钟，根据以往的数据知道，该学院大学生每天体育锻炼时间的标准差为12分钟。试求该学院大学生平均每天体育锻炼时间的置信区间，置信水平为95%。

案例分析：虽然不知道该学院学生总体的每日运动时间是否服从正态分布，但是样本容量为100人，属于大样本，根据中心极限定理，每日运动时间的均值抽样分布服从正态分布，且总体标准差已知，因此仍然可以使用Z分布进行区间估计。

置信水平为95%，即1-α=0.95，α=0.05，α/2=0.025，查标准正态分布表可知，面积最接近0.5-0.025=0.475的对应z值为z0.025=1.96。已知该学院学生总人数为1800人，样本容量为100人，总体容量是样本容量的1800/100=18倍，因此需要用修正因子进行修正。

列出总体均值区间估计的已知条件：
$\delta_c=\frac{\delta_z}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}=\frac{12}{\sqrt{100}}\times\sqrt{\frac{1800-100}{1800-1}}=1.167\\ Z_{\alpha/2}=Z_{0.025}=1.96\\ \overline{x}=26$
将上述已知条件代入总体均值的置信区间计算公式：
$\overline{x}-Z_{\frac{\alpha}{2}}\frac{\alpha_z}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}\leq\mu_z\leq\overline{x}+Z_{\frac{\alpha}{2}}\frac{\alpha_z}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}\\ 26-1.96\times1.167\leq\mu_z\leq26+1.96\times1.167\\ (26\pm2.29)小时$
从计算结果可知，该大学计算机学院的学生有95%的可能性，每天的平均运动时间为23.71分钟到28.29分钟。

购买保险公司产品的消费者年龄置信区间

保险公司在正式设立保险品种之前，都需要进行前期的调研。国内某知名保险公司想要针对某个城镇推行一种新型寿险，因此需要了解该城镇50000名居民的平均年龄。该城镇居民的年龄均值和标准差都未知。公司经过前期调研发现该城镇居民的年龄不服从正态分布，而是有些正偏。调研人员随机抽取了100个该城镇的居民作为样本，得到样本的平均年龄是40岁，标准差为15岁，计算该城镇居民平均年龄95%的置信区间。

案例分析：虽然该城镇居民的年龄不服从正态分布且总体标准差未知，但是样本容量为100人，属于大样本，根据中心极限定理，样本容量大于100的均值抽样分布服从正态分布，且样本标准差是总体标准差的合理估计，因此可以用Z分布求得该城镇居民平均年龄的近似置信区间。

置信水平为95%，即1-α=0.95，α=0.05，α/2=0.025，查标准正态分布表，面积最接近0.5-0.025=0.475的对应z值为zα/2=z0.025=1.96。因为样本容量为100人，该城镇居民人数有50000人，总体人数和样本人数的比值为50000/100=500，远远大于20倍，所以不需要使用修正因子对均值抽样分布的标准差进行修正。

列出总体均值区间估计的已知条件：
$\delta_c=\frac{\delta_z}{\sqrt{n}}\approx\frac{S}{\sqrt{n}}=\frac{15}{\sqrt{100}}=1.5\\ Z_{\alpha/2}=Z_{0.025}=1.96\\ \overline{x}=40$
将上述已知条件代入总体均值的置\信区间计算公式：
$\overline{x}-Z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\leq\mu_z\leq\overline{x}+Z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\\ 40-1.96\times1.5\leq\mu_z\leq40+1.96\times1.5\\ (40\pm2.94)岁$
从计算结果可知，该城镇50000个居民的平均年龄有95%的可能性为37.06岁到42.94岁。由此可见，该城镇居民的平均年龄平均年龄处于劳动力年龄范围之内，有较强的保险购买能力，保险公司应该在该城镇积极推行新险种。

T分布与总体均值的区间估计

酱料厂罐装产品重量的置信区间

质检部门是每个制造业工厂都必须设立的关键部门。自动化生产线生产的产品重量相比手工生产是非常稳定的，可以被认为服从正态分布。某食品工厂采用自动化生产线生产了一批罐装酱料产品，质检员从这批罐装产品中随机抽取10罐产品作为样本，测得它们的重量分别为318、320、322、321、321、323、319、320、320、324（单位：克）。要求在95%的置信水平下，估计该公司这批罐装酱料产品平均重量的置信区间。

案例分析：因为总体标准差未知，产品重量服从正态分布，所以样本量等于10的所有可能样本的均值组成的抽样分布服从T分布。采用T统计量公式推导的总体均值置信区间公式进行计算。置信水平为95%，即1-α=0.95，α=0.05，α/2=0.025，样本容量等于10，自由度为ν=10-1=9，查T分布表，查找到自由度为9的行与概率值0.025的列的交叉格，结果是2.262，即t0.025（9）=2.262。列出总体均值区间估计的已知条件：

$\overline{x}=\frac{\sum_{i=1}^{10}x_i}{10}=\frac{318+\cdots+324}{10}=320.8\\ t_{\frac{\alpha}{2}}(v)=t_{1-\frac{\alpha}{2}}(v)=t_{0.025}(9)=2.262\\ s=\sqrt{\frac{\sum_{i=1}^{10}(X-\overline{X})^2}{n-1}}=\sqrt{\frac{(318-320.8)^2+\cdots+(324-320)^2}{10-1}}=\sqrt{\frac{29.6}{10-1}}=1.814$
将上述已知条件代入总体均值的置信区间计算公式：
$\overline{x}\pm t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}}\\ 320.8\pm 2.262\times\frac{1.814}{\sqrt{10}}\\ (320.8\pm1.30)克$
从计算结果可知，有95%的可能性，该食品工厂这个批次的罐装酱料产品的平均重量在319.5克到322.1克之间，说明自动化生产线的生产稳定性很高。因为对消费者来说，他们最关心的是产品的实际重量是否达到产品标签声明的重量，所以企业对产品重量的下限是否达到标准非常重视，因此可以只对产品总体的平均重量的置信下限进行估计。假设其他条件相同，由于1-α=0.95，α=0.05，因为只关心产品总体平均重量的置信下限，所以在T分布表中需要查找的T统计量为t0.05（9）=1.833。代入总体均值置信区间的置信下限计算公式：
$\overline{x}-t_{0.05}(10-1)\frac{S}{\sqrt{n}}<\mu_z\\ \mu_z>320.8-1.833\times\frac{1.814}{\sqrt{10}}\\ \mu_z>319.8$
从计算结果可知，该批次罐装酱料产品的平均重量大于319.8克有95%的可能性。对比两次的计算结果，单侧区间估计的置信下限比双侧区间估计的置信下限小，这是由显著性水平α都位于一端决定的。

切比雪夫定理与总体均值的区间估计

心脏搭桥手术后，患者住院时间的置信区间

一种新的心脏搭桥手术正在一家医院进行临床试验。医院对已经完成的20例手术患者进行跟踪记录，患者的平均住院时间为14.3天，标准差为2.84天。因为每个病人的病情不一样，所以术后的住院恢复时间总体不服从正态分布，而是有些正偏。除此之外，术后的住院恢复时间总体的标准差也未知。试计算经过这种新的心脏搭桥手术以后，患者平均住院恢复时间90%的近似置信区间是多少。

案例分析：因为经过手术后，病人的住院恢复时间不服从正态分布，并且样本容量等于20，是小样本，所以不能用均值抽样分布的Z分布和T分布来做总体均值的区间估计，只能用切比雪夫不等式来估计做过该手术病人的平均住院恢复时间的置信区间。

置信水平等于90%，因此有：
$1-\frac{1}{k^2}=0.9\\ k^2=10\\ k=3.162$
因为术后住院恢复时间的总体标准差未知，所以只能用样本标准差代替总体标准差来近似求取均值抽样分布的标准差；

$\mu_c=\frac{s}{\sqrt{n}}=\frac{2.84}{\sqrt{20}}=0.635$
术后平均住院恢复时间90%的近似置信区间为：
$(\overline{x}\pm k\mu_c)=(\overline{x}\pm k\frac{s}{\sqrt{n}})\\ (14.3\pm3.162\times0.635)\\ (14.3\pm2.01)天$
假设术后的住院恢复时间总体服从正态分布，就能够使用T分布对总体均值进行区间估计，得到更高精度的置信区间。因为置信水平等于90%，即1-α=0.9，α=0.1，α/2=0.05，样本容量等于20，自由度为ν=20-1=19。查T分布表得：
$t_{\frac{\alpha}{2}}(v)=t_{0.05}\times(19)=1.729\\ \overline{x}\pm t_{0.05}(19)\frac{S}{\sqrt{n}}=14.3\pm 1.729\times0.635\\ (14.3\pm 1.10)天$
对比切比雪夫不等式和T分布推断得到的总体均值置信区间的结果，切比雪夫不等式推断的置信区间范围远大于T分布推断的结果，所以T分布的推断结果更精确，而切比雪夫不等式的推断结果只是近似。至此，总体均值区间估计的内容就介绍完了。下面继续介绍利用卡方分布和F分布进行单个总体方差和两总体方差比的区间估计。

卡方 $（X^2）$ 分布与总体方差的区间估计

使用T分布和Z分布分析食品包装上的营养成分表

超市里销售的各种食品的包装上都被要求印上营养成分表，表中注明了产品中所包含的主要营养成分及其含量。例如，平时大家都会购买的饼干产品，在其营养成分表内注明了蛋白质、脂肪、反式脂肪酸、碳水化合物和钠等营养成分在每100克产品中的含量。现在食品企业生产环节的自动化程度都非常高，产品的稳定性也非常好，所以产品的各种营养成分的含量可以被认为是呈正态分布的。质检人员会对每一批次的产品进行抽检，用以估计该批次产品的营养成分情况，以此判断生产情况是否稳定。某夜班的质检人员随机抽检某批次的101包饼干，并测定它们的脂肪含量，得到结果：每袋饼干产品的脂肪平均含量为18.2克，标准差为0.56克。求该批次饼干产品平均每袋的脂肪含量及方差90%的置信区间。

案例分析：每批次饼干的数量是非常巨大的，可以认为是无限总体，总体标准差未知；同时自动化生产线使产品的营养成分含量服从正态分布；样本容量为101包饼干，属于大样本。对照“均值抽样分布适用条件表”，可以使用T分布和Z分布进行总体均值的区间估计。我们同时使用T分布和Z分布进行区间估计，对比它们之间的估计精度。

1.该批次产品每袋的平均脂肪含量的置信区间

由于1-α=0.90，则α=0.10，α/2=0.05，查标准正态分布表，面积最接近0.5-0.05=0.45的对应z值为 $z_{α/2}=z0.05=1.645$ 。

列出总体均值区间估计的已知条件：
$\delta_c\approx\frac{S}{\sqrt{n}}=\frac{0.56}{\sqrt{101}}=0.074\\ Z_{0.05}=1.645\\ \overline{x}=18.2$
将上述已知条件代入Z统计量推导得到的置信区间公式，得到平均每袋饼干的脂肪含量：
$\overline{x}-Z_{\frac{\alpha}{2}}\delta_c\leq\mu_z\leq\overline{x}+Z_{\frac{\alpha}{2}}\delta_c\\ 18.2-1.645\times0.074\leq\mu_z\leq18.2+1.645\times0.074\\ (18.4\pm0.122)克$
如果用T统计量推导得到的置信区间公式计算，样本容量等于101，自由度为ν=101-1=100，查T分布表，查找到自由度为100的行与概率值等于0.05的列的交叉单元格，对应的右尾临界值等于1.66，即tα/2（ν）=t0.05（100-1）=1.66。
$\overline{x}-Z_{\frac{\alpha}{2}}（v）\delta_c\leq\mu_z\leq\overline{x}+Z_{\frac{\alpha}{2}}（v）\delta_c\\ 18.2-1.66\times0.074\leq\mu_z\leq18.2+1.66\times0.074\\ (18.4\pm0.123)克$
对比Z分布和T分布的置信区间计算结果可以发现，两者的计算结果是非常相近的，这也验证了前面的阐述：正态分布总体，当样本量大于或等于30时，Z分布和T分布几乎相等。

2.平均每袋产品的脂肪含量方差的置信区间

由于1-α=0.90，则α=0.10，α/2=0.05，1-α/2=0.95，自由度为ν=101-1=100，查找卡方分布表：

$x^2_{\frac{0.1}{2}}(101-1)=x^2_{0.05}(100)=124.34\\ x^2_{1-\frac{0.1}{2}}(101-1)=x^2_{0.95}(100)=77.93\\ s^2=0.56^2=0.3136$
将上述已知条件代入卡方分布的区间估计公式：
$\frac{(n-1)s^2}{x^2_{\frac{\alpha}{2}}(n-1)}\leq\delta^2_z\leq\frac{(n-1)s^2}{x^2_{1-\frac{\alpha}{2}}(n-1)}\\ \frac{(101)-1\times0.3136}{124.34}\leq\delta^2_z\leq\frac{(101)-1\times0.3136}{77.93}\\ 0.25\leq\delta^2_z\leq0.4$
从计算结果可知，该批次饼干产品平均每袋的脂肪含量方差的置信区间为0.25～0.4。

【读书笔记】-003-《人人都会数据分析》-生活案例2
Z分布与总体均值的区间估计估算西部儿童看电视时间的置信区间西北某大学的社会学教授有一个研究课题，研究居住在西北...
【读书笔记】-003-《人人都会数据分析》-生活案例1
生活案例算数平均数使用算术平均值了解公司的待遇水平某个互联网创业公司目前有30名员工，分成三个月薪收入等级，...
【读书笔记】-003-《人人都会数据分析》-第1章生活在数据时代
第1章生活在数据时代数据分析无处不在常用的国家统计指标1.国内生产总值国内生产总值（Gross Domesti...
2017-11《人人都会数据分析：从生活实例学统计》.pdf
下载地址：2017-11《人人都会数据分析：从生活实例学统计》[www.rejoiceblog.com].pdf
人人都会数据分析大纲
-实现数据分析需要有哪些东西？ -有数据 --数据从何而来？ ---自有数据 ---爬虫抓取 ----爬虫抓取的步...
第四阶段爬虫整理
爬虫概述爬虫案例案例1：爬取百度贴吧数据分析：GET方式爬取数据抓包：设计：实现：案例2：抓妹子图分析：...
做“数据分析”你要注意这些！
除了专职做数据分析和挖掘的人员，其实在各个行业，不论岗位是什么，大家几乎都会进行数据分析，虽然人人都要进行数据分析...
「数据采集」- 埋点2
一、埋点设计案例：二、哪些数据需要统计首先将数据目标归类：（1）功能分析；（2）业务分析；（3）用户信息；（...
运营案例拆解 | 人人贷：我，更懂人性
今天拆解的案例是：人人贷。我会从以下几方面来对人人贷进行运营分析： 1、产品介绍 2、运营产品的难点 3、人人贷如...
spark第二天作业
基站数据分析案例 [TOC] 本节任务场景解读练习数据维度分析教学目标使用案例练习Spark算子通过基站数据...