用R语言计算统计学习题（上）

作者: 只是不在意 | 来源:发表于2017-03-17 10:05 被阅读0次

R语言可说是一门统计学语言，要熟练运用，还需要掌握一定的统计学知识。除了学习《深入浅出统计学》以外，个人还推荐《商务统计学》（人大第5版）这本书，它的优点是习题很多，可以用R语言的统计学函数对照练习。

图片来自网络

下面是书中的习题（第一到六章），我利用R语言进行解答的一些简单分析：

第二章用图表演示数据

2.78 文件Drink的数据展现了50瓶连续灌装饮料的量。(数据略)

问题：A. 按照顺序，用x轴表示瓶号，y轴表示时间的量，画出时间序列图。

B. 这些数据呈现出什么模式？

C. 如果你预测下一瓶罐装饮料的量，你会怎么预测？

这道题我认为用时间序列图解答比较好。不巧的是，时间序列图在《R语言实战中》第15章才讲。不过我们可以提前做一下：

运用ts函数，计算时间序列。这里起始时间我选择了2016年1月，频率我投机取巧的选择了小时数（一小时生产一瓶...），然后画出时间序列图。

td<-ts(drink,start=c(2016,1),frequency=8760)

从图上可以看出，饮料的灌装量越来越少，看来该检修机器了...

接下来的预测用forecast包的forecast实现，可以预测一步的，也可以预测n步......答题结束。

第三章数值描述度量

3.32 两家银行记录了午间一小时的顾客等候时间，分别为（数据略）

问题：列出这两两家的盒须图，以及等候时间的相似/差异之处。

盒须图可以用boxplot来画。等候时间比较可以用《R语言实战》的第七章t检验来做。

结果p<0.001，拒绝两家等候时间相同的假设。

3.75，标准茶袋净重5.5克，数据显示一台机器包装的50袋茶叶的净重（数据略）

问题：A. 计算算术平均数，中位数，第一四分位数与第三四分位数。

B. 计算该样本的全距，四分位间距，方差，标准差以及相关系数

C. 解释集中趋势和变异程度

自己先做了一个正态检验：

中位数和四分位数，可以参考《R语言实战》第七章描述性统计分析，利用图基五数fivenum函数求出。其余的数值，可以采用pastecs包的stat.desc函数。

其中偏度skewness为-0.12，说明分布呈现左偏；峰度kurtosis为-0.19，较正态分布稍平。

第六章正态分布

6.16 某快餐店抽取20份鸡肉三明治的脂肪含量，分别为：

7 8 4 5 6 20 20 24 19 30 23 30 25 19 29 29 30 30 40 56

问题：确定这些数据是否符合正态分布

一开始，我的想法是利用直方图，直观的看数据分布情况：

a<-c(7,8,4,5,16,20,20,24,19,30,23,30,25,19,29,29,30,30,40,56)

hist(a)

得到图形，但并不是很完美的正态分布：

搜索下，原来应该用shapiro.test分析（不记得在R语言书中哪里了，有记得者请指教）

代码就是：shapiro.test(a)

根据说明，W值近似1，p值>0.05，符合正态分布假设。

概率函数pnorm,qnorm,dnorm等在《R语言实战》的第五章就讲到了。（5.2.3概率函数，P90），基本定义如下：

dnorm密度函数。ie 正态分布x=1对应的值可以用dnorm(1)计算

pnorm概率函数。ie 正态分布从负无穷大到1的概率，可以用pnorm(1)计算

qnorm分位函数。如果知道正态分布从负无穷大到x的概率是0.45，可以通过qnorm(0.45)计算x值。

但是R书中只是简单说明一下，再练练兵吧！《商务统计学》的相关练习是：

P176，问题6.30 瓶装饮料的净重符合正态分布，均值2升，标准差0.05升。

问题：多少比例的瓶子含有如下数量的饮料？ A.1.9-2.0升; B.1.9-2.1升； C. 少于1.9或多于2.1升

解答：运用qnorm函数，格式为:

pnorm(2.1,sd=0.05,mean=2)

代入不同重量，得到不同结果

因此，在1.9-2.0升的比例为：0.5-0.0227=0.4773

1.9-2.1的比例为：0.9772-0.0227=0.9545

低于1.9或超过2.1的比例为：0.02275x2=0.0455

好，再来一道：

问题6.32，从每个橘子榨出的橘子汁符合正态分布，均值4.7盎司，标准差0.4盎司。问题：

80%的橘子所含有的汁在哪两个数量（对称分布于总体均值两端）之间？

按照题意理解，题目的分布是在-100%至100%之间，而R是在0-1之间取值，因此需要按比例折减，-80%折合0.1，80%折合0.9，算出答案，与书本答案一致。

77%的橘子至少会有多少盎司的橘子汁？

按照上述想法，-0.77/2+0.5=0.115，

写代码：qnorm(0.115,sd=0.4,mean=4.7)，得出4.22

而书中答案是4.404。再利用pnorm(4.04, sd=0.4,mean=4.7)反推，得出比例应为0.23。咦，这里难道又不用算对称分布于两端了吗？好吧......

先写到这里吧，下一部写第七到十章的习题。

网友评论

本文标题：用R语言计算统计学习题（上）

本文链接：https://www.haomeiwen.com/subject/gadsnttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

用R语言计算统计学习题（上）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据-R语言-图表-决策-Linux-Python

程序员