描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。
概念
基本概念
- 总体:特定研究中所有个体的总和
- 样本:总体的子集
- 样品的数据可以用于对总体的属性进行估计和假设检验
- 截面数据:在相同或相近的时间点上收集到的数据
- 时间序列数据:在几个时期内收集到的数据
描述性统计量:
- 平均数:数据总和除以总个数
- 加权平均数: 数据和权重之和除以所有权重之和
- 中位数:数据按照顺序排序,如果总个数是奇数,取最中间的;偶数为中间两数平均值
- 众数:频数(出现次数)最多的,众数可能不止一个,多个众数没有意义。
- 四分位数:上四分卫,中位数,下四分位
描述数据离散程度的统计量:
- 极差:最大值减最小值
- 四分位数间距 :Q3-Q1
- 方差:各个数与平均数之差的平方的平均数
- 标准差:方差的正平方根
- 标准差系数: 标准差除以平均数
- Z分数:表示该数据项距离均值有多少个标准差
两变量之间关系:
-
协方差:
协方差为正表示正相关,负为负相关,零表示无相关关系。
-
相关系数:
相关系数在-1和+1之间,最小为-1,表示完全负相关,以此类推。
练习
Excel
平均数:使用函数AVERAGE
,例如stereo数据集中 Sales Volume字段表示每周的销售业绩,平均值为AVERAGE(C2:C11)
,结果是51。
中位数:MEDIAN(C2:C11)
=52
众数:MODE(C2:C11)
=54,MODE函数返回一组数据区域中出现频率最高的数。
四分位数:Excel有QUARTILE函数,返回的是一组数据的四分位点,该函数有两个参数,第一个参数是数据范围,第二个参数是数值0到4,本别可以求出数据的最大值,上四分位,中位数,下四分位和最大值。
所以上四分位是QUARTILE(C2:C11,1)=46.5,75%四分位数是QUARTILE(C2:C11,3)=56.25
标准差和方差:标准差使用STDEV函数,方差只需对其平方。
Z分数:计算标准分Z分数,根据公式
要求一个数的标准分,用该数减去平均分,再除以标准差,公式为
(C2-AVERAGE($C$2:$C$11))/STDEV($C$2:$C$11)
,复制到其他数值。
Excel数据透视表/图
Excel中的数据透视表可做数据汇总,生成易于理解的表和图展示数据。
restaurant数据集包含300家餐饮店的消费信息,我在E1位置插入=》数据透视表=》选择范围$A$1:$C$301=》确定。如下图
上方包含所有可选的字段,我们可以吧这些字段任意拖动到新的透视表中——作为行标签或者列标签或者数据内容。
比如要查看不同Quality Rating的餐饮店在不同消费水平的信息:将Quality Rating拖动到行标签,Meal Price 拖动到列标签,Restaurant拖动到数值框,修改Restaurant的显示方式为计数,在表格中列标签上右键点击选择分组,设置开始结束和step就可以得到:
R
引入包导入数据
library("openxlsx")
Stereo<- read.xlsx("Stereo.xlsx","Data")
Volume <- Stereo$Sales.Volume
均值
mean(Volume)
[1] 51
中位数
median(Volume)
[1] 52
众数:R中没有直接求众数的,可是用table函数计算出每个值的频数,再用which.max取频数最大的。54,它是第6个值。
which.max(table(Volume))
54
6
四分位数
quantile(Volume)
0% 25% 50% 75% 100%
38.00 46.50 52.00 56.25 63.00
标准差
sd(Volume)
[1] 7.930252
方差
var(Volume)
[1] 62.88889
标准分
scale(Volume)
[,1]
[1,] -0.1260994
[2,] 0.7565964
[3,] -1.2609941
[4,] 0.3782982
[5,] 0.3782982
[6,] -1.6392923
[7,] 1.5131929
[8,] -0.3782982
[9,] 1.0087952
[10,] -0.6304970
果然还是R计算的更精确,功能也更加强大。
网友评论