1.导入文件
打开Jupyter Notebook,讲文件路径定位到数据存储文件夹,然后点击New,创建Python3。看之前学员的作业,说是创建notebok,但是我的是灰色的,无法创建。
#导入数据
#导入模块,并起别名
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats #从stats模块中导入scipy
weight_data = pd.read_table("weight.txt") #将数据读入
weight_data.shape
(80, 1)
2.计算均值和方差
weight_data['weight'].mean()
50.7
weight_data['weight'].var()
39.27594936708859
3.画直方图
fig = plt.figure()
x = weight_data['weight']
ax = fig.add_subplot(111)
numBins = 20
ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
plt.title(u'weight')
plt.show()
output_7_0.png
4.数据分析
数据分析
1、均值为50.7,方差为39.27,离散度不高,体重均值偏轻,怀疑是女性或者未成年群体居多。
2、数据整体呈正态分布。
3、体重在45——50岁之间人数最多,最高不超过70,最低不超过35。
第二个文件
1.导入文件
AirPassengers_data = pd.read_csv("AirPassengers.csv")
AirPassengers_data.shape
(144, 2)
passengers = AirPassengers_data['NumPassengers']
mouth = AirPassengers_data['Month']
2.计算均值和方差
passengers.mean()
280.2986111111111
passengers.var()
14391.917200854701
3.画直方图
fig = plt.figure()
x = passengers
ax = fig.add_subplot(111)
numBins = 50
ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
plt.title(u'passengers')
plt.show()
output_18_0.png
4.数据分析
数据分析
1、均值为280.2,方差为14391.9,离散度很高,说明乘客数量波动较大。
2、直方图有递减趋势,随着人数的增多,次数也有一定的下降。
3、乘客在100到200之间人数最多,而且分布比较平均。
4、人数在230次数最多,而且高出其他数据很多,怀疑是异常值,需要重新检查数据。
网友评论