第二次作业

作者: mudu86 | 来源:发表于2017-03-11 16:09 被阅读42次
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
weight_data = pd.read_table('weight.txt')
weight = weight_data['weight']
fig = plt.figure()
plt.rcParams["font.family"] = "SimHei" #修改字体属性,显示汉字
x = weight
ax = fig.add_subplot(111)
numBins = 20
ax.hist(x,numBins,color = 'blue')
plt.title(u'体重的直方图')
plt.show()
output_1_0.png
weight.mean()
50.7
weight.std()
6.26705268583954
从直方图可以得出的结论如下:
1. 体重不是任意分布,分布范围在38~69。
2. 体重不是平均分布,从平均值50.7和标准差6.26可知,数据集中在44.44~56.96。
3. 组值69、频数2的数据偏离平均值最远,超过标准差范围。
4. 数据主要集中在42~55之间,极端数据对整个样本影响较小。
5. 这组体重数据属于平均斯坦,受到平均数周围数据的影响较大。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
AirPassengers_data= pd.read_csv('AirPassengers.csv')
NumPassengers = AirPassengers_data['NumPassengers']
fig = plt.figure()
x = NumPassengers
ax = fig.add_subplot(111)
numBins = 40
plt.rcParams["font.family"] = "SimHei"
ax.hist(x,numBins,color = 'blue')
plt.title(u'乘客数')
plt.show()
output_5_0.png
NumPassengers.mean()
280.2986111111111
NumPassengers.std()
119.96631694294321
从直方图可以得出的结论如下:
1. 乘客数不是任意分布,分布范围在100~620。
2. 乘客数不是平均分布,从平均值280和标准差119,可知,主要数据分布范围在161~399
3. 组值600、频数2的数据偏离平均值最大,超过标准差的范围。
4. 大量数据集中在100~400之间, 极端数据对整个样本影响较小。
5. 这组乘客数数据属于平均斯坦,受到平均数周围数据的影响较大。
#2种加载中文方法
#第一种 指定系统的字体属性到一个参数,每次需要加载在指定参数
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14) 
plt.title(u"体重的直方图", fontproperties=font)

#第二种 直接修改默认的字体属性
plt.rcParams["font.family"] = "SimHei" 

网友评论

  • TheTiger:一个建议,如果你说平均斯坦的结论,最好给出定义,平均斯坦和极端斯坦是什么?
    尽量用自己的语言去描述,这样有助于读者更好理解你的数据解读。
    mudu86:谢谢你指出我的问题,以后我会注意。
  • 鱼心DrFish:分析的不错,赞一个!
    但是看你结论的样式,貌似没有采用文本编辑单元的模式。试着在notebook中选中那个单元格,然后按ESC+M,转化成文本模式。
    mudu86:@鱼心fishstar 谢谢指出我的错误,我在在notebook中保存为.md格式,然后直接复制到简书
    鱼心DrFish:抱歉,我上面说错了,不是notebook的问题,应该是直接复制到简书中,输出自带缩进格式导致问题。

本文标题:第二次作业

本文链接:https://www.haomeiwen.com/subject/ddzagttx.html