离中趋势度量
1.极差:极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据的分布情况
2.标准差:标准差度量数据偏离均值的程度,计算公式:
3.变异系数:变异系数度量标准差相对于均值的离中趋势,计算公式为:
4.四分位数间距
四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。
四分位数间距,是上四分位数Qu与下四分位数Ql之差,其间包含了全部观察值的一个半。值越大,说明数据的变异程度越大;反之,越小。
#-*- coding: utf-8 -*-
#餐饮销量数据统计量分析
from __future__ import print_function
import pandas as pd
catering_sale = 'G:/PycharmProjects/数据分析与挖掘/catering_sale.xls' #餐饮数据
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列
data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据
statistics = data.describe() #保存基本统计量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距
print(statistics)
mean:平均值 std:标准差
网友评论