美文网首页解密大数据
迟来的第一讲作业

迟来的第一讲作业

作者: Mr_尹 | 来源:发表于2017-03-14 23:15 被阅读48次

    1.导入文件

    打开Jupyter Notebook,讲文件路径定位到数据存储文件夹,然后点击New,创建Python3。看之前学员的作业,说是创建notebok,但是我的是灰色的,无法创建。

    #导入数据
    #导入模块,并起别名
    import pandas as pd 
    import numpy as np
    import matplotlib.pyplot as plt
    from scipy import stats #从stats模块中导入scipy
    weight_data = pd.read_table("weight.txt") #将数据读入
    weight_data.shape
    
    (80, 1)
    

    2.计算均值和方差

    weight_data['weight'].mean()
    
    50.7
    
    weight_data['weight'].var()
    
    39.27594936708859
    

    3.画直方图

    fig = plt.figure()
    x = weight_data['weight']
    ax = fig.add_subplot(111)
    numBins = 20
    ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
    plt.title(u'weight')
    plt.show()
    
    output_7_0.png

    4.数据分析

    数据分析
    1、均值为50.7,方差为39.27,离散度不高,体重均值偏轻,怀疑是女性或者未成年群体居多。
    2、数据整体呈正态分布。
    3、体重在45——50岁之间人数最多,最高不超过70,最低不超过35。

    第二个文件

    1.导入文件

    AirPassengers_data = pd.read_csv("AirPassengers.csv")
    AirPassengers_data.shape
    
    (144, 2)
    
    passengers = AirPassengers_data['NumPassengers']
    mouth = AirPassengers_data['Month']
    

    2.计算均值和方差

    passengers.mean()
    
    280.2986111111111
    
    passengers.var()
    
    14391.917200854701
    

    3.画直方图

    fig = plt.figure()
    x = passengers
    ax = fig.add_subplot(111)
    numBins = 50
    ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
    plt.title(u'passengers')
    plt.show()
    
    output_18_0.png

    4.数据分析

    数据分析
    1、均值为280.2,方差为14391.9,离散度很高,说明乘客数量波动较大。
    2、直方图有递减趋势,随着人数的增多,次数也有一定的下降。
    3、乘客在100到200之间人数最多,而且分布比较平均。
    4、人数在230次数最多,而且高出其他数据很多,怀疑是异常值,需要重新检查数据。

    相关文章

      网友评论

        本文标题:迟来的第一讲作业

        本文链接:https://www.haomeiwen.com/subject/ooyknttx.html