美文网首页玩转大数据大数据解密大数据
人人都会用数据(一)——直方图&平均数

人人都会用数据(一)——直方图&平均数

作者: 开开Angela | 来源:发表于2017-01-03 22:58 被阅读458次

    2017给自己定的目标之一,数据学习,加入泰格志《商业数据分析入门》,坚持每次完成作,感谢小虎组织的社群,前期已经落了很多课,后续会在这里记录自己的学习过程及作业的完成,更多的还是需要自己去实践。

    一、关于统计学的方法论:

    • 了解前因后果
    • 定义问题和决定数据指标
    • 确定采集数据的方法
    • 采集数据和寻找数据特征
    • 数据分析和表达
    • 解释分析结果和决策

    二、直方图
    主要概念为频数、累计频数。

    频数(Frequency),又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。按分组依次排列的频数构成频数数列,用来说明各组标志值对全体标志值所起作用的强度。各组频数的总和等于总体的全部单位数。频数的表示方法,既可以用表的形式,也可以用图形的形式。
    累积频数就是将各类别的频数逐级累加起来。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别(或数值) 以上的频数之和。

    三、平均值
    主要概念为:算术平均数、加权平均数、几何平均数、调和平均数。
    以下概念描述摘自百度:
    简单算术平均
    适用:主要用于未分组的原始数据。设一组数据为X1,X2,...,Xn,简单的算术平均数的计算公式为:


    加权算术平均:

    主要用于处理经分组整理的数据。设原始数据为被分成K组,各组的组中的值为X1,X2,...,Xk,各组的[频数]分别为f1,f2,...,fk,加权算术平均数的计算公式为:


    其中,算术平均数是加权平均数的一种特殊形式(它特殊在各项的权相等),当实际问题中,当各项权不相等时,计算平均数时就要采用加权平均数,当各项权相等时,计算平均数就要采用算数平均数。两者不可混淆。公式:
    加权平均数 x拔=(x1f1 + x2f2+ ... xkfk)/n,其中f1 + f2 + ... + fk=n,f1,f2,…,fk叫做权

    几何平均数
    是n个变量值连乘积的n次方根。
    EXCEl语法:插入函数---统计---GEOMEAN函数

    调和平均数
    调和平均数是算术平均数的变形
    调和平均数函数HARMEAN的用法是:=HARMEAN(数值1,数值2,数值3,...)

    关系:
    调和平均数≤几何平均数≤算术平均数≤平方平均数

    关于截断平均数,观察异常值是什么,给出异常值选择的标准,然后对剩下的值求平均。

    方差:
    (variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。


    附加:关于用Python 制作直方图

    一、体重数据

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    from scipy import stats
    weight_data = pd.read_table('weight.txt') #读入数据
    weight_data.shape
    
    # 按住shift + enter ,执行
    
    
    (80, 1)
    
    #求平均值
    weight_data['weight'].mean()
    
    
    50.7
    
    #求方差
    weight_data['weight'].var()
    
    
    39.27594936708859
    
    fig=plt.figure() 
    x=weight_data['weight']
    ax=fig.add_subplot(111) #参数111的意思是:将画布分割成1行1列,第1块,可放大缩小图片大小
    numBins=20 #列数?
    ax.hist(x,numBins,color='green',alpha=0.6,rwidth=0.8) #alpha 颜色深度
    plt.title(u'weight')
    plt.show()
    
    output_3_0.png

    关于这组体重数据分析:
    1.从直方图中看出体重集中在45kg-55kg,即在平均值附近。
    2.根据方差39kg与平均值50kg比较,数据波动程度较大。

    二、AirPassengers

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    from scipy import stats
    passengers_data = pd.read_csv('AirPassengers.csv') #导入CSV数据
    passengers_data.shape
    
    (144, 2)
    
    passengers_data['NumPassengers'].mean() #计算平均数
    
    280.2986111111111
    
    passengers_data['NumPassengers'].var() #计算方差
    
    14391.917200854701
    
    fig = plt.figure()
    x = passengers_data['NumPassengers']
    ax = fig.add_subplot(111)
    ax.hist(x,bins=20,color='green',alpha=0.6,rwidth=0.8)
    plt.title('passenger')
    plt.show()
    
    output_4_0.png

    关于乘客人数分析:
    1.每个月坐飞机的平均人数为280人,从直方图中看出基本保持一致,集中在100-200之间
    2.方差值相对平均值差异较大,说明这组数据波动也较大

    第一次接触Python,很多语法还不是很清楚,先从模仿开始,中间过程发现执行程序时提示错误大部分原因是粗心导致字母拼错(属于低级错误),已经落了很多课,赶紧上车。


    关于解密大数据社群
    本社群是Tiger为了顺应大数据时代降临,方便更多朋友入门和深入学习数据而创办的社群服务。
    解密大数据社群旨在为百思不得其解并苦于无法入门数据分析的爱好者们提供一个学习和成长的平台,此外,为了服务转行大数据行业的朋友们,我们特别打造了数据分析的系列精品课程,集合了美国和中国的一线大数据从业者,提供完整的从学习到就业的数据分析落地方案。
    欲入社群或课程咨询请留下联系方式,期待你和我们共同成长!

    相关文章

      网友评论

        本文标题:人人都会用数据(一)——直方图&平均数

        本文链接:https://www.haomeiwen.com/subject/monnvttx.html