美文网首页
统计第一课

统计第一课

作者: 张伟松 | 来源:发表于2017-09-17 19:35 被阅读78次

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

概念

基本概念

  • 总体:特定研究中所有个体的总和
  • 样本:总体的子集
  • 样品的数据可以用于对总体的属性进行估计和假设检验
  • 截面数据:在相同或相近的时间点上收集到的数据
  • 时间序列数据:在几个时期内收集到的数据

描述性统计量:

  • 平均数:数据总和除以总个数
  • 加权平均数: 数据和权重之和除以所有权重之和
  • 中位数:数据按照顺序排序,如果总个数是奇数,取最中间的;偶数为中间两数平均值
  • 众数:频数(出现次数)最多的,众数可能不止一个,多个众数没有意义。
  • 四分位数:上四分卫,中位数,下四分位

描述数据离散程度的统计量:

  • 极差:最大值减最小值
  • 四分位数间距 :Q3-Q1
  • 方差:各个数与平均数之差的平方的平均数
  • 标准差:方差的正平方根
  • 标准差系数: 标准差除以平均数
  • Z分数:表示该数据项距离均值有多少个标准差

两变量之间关系:

  • 协方差:



    协方差为正表示正相关,负为负相关,零表示无相关关系。

  • 相关系数:



    相关系数在-1和+1之间,最小为-1,表示完全负相关,以此类推。

描述统计--思维导图

练习

Excel

平均数:使用函数AVERAGE,例如stereo数据集中 Sales Volume字段表示每周的销售业绩,平均值为AVERAGE(C2:C11),结果是51。
中位数MEDIAN(C2:C11)=52
众数MODE(C2:C11)=54,MODE函数返回一组数据区域中出现频率最高的数。

四分位数:Excel有QUARTILE函数,返回的是一组数据的四分位点,该函数有两个参数,第一个参数是数据范围,第二个参数是数值0到4,本别可以求出数据的最大值,上四分位,中位数,下四分位和最大值。
所以上四分位是QUARTILE(C2:C11,1)=46.5,75%四分位数是QUARTILE(C2:C11,3)=56.25

标准差和方差:标准差使用STDEV函数,方差只需对其平方。
Z分数:计算标准分Z分数,根据公式


要求一个数的标准分,用该数减去平均分,再除以标准差,公式为(C2-AVERAGE($C$2:$C$11))/STDEV($C$2:$C$11),复制到其他数值。
Excel数据透视表/图

Excel中的数据透视表可做数据汇总,生成易于理解的表和图展示数据。
restaurant数据集包含300家餐饮店的消费信息,我在E1位置插入=》数据透视表=》选择范围$A$1:$C$301=》确定。如下图


上方包含所有可选的字段,我们可以吧这些字段任意拖动到新的透视表中——作为行标签或者列标签或者数据内容。
比如要查看不同Quality Rating的餐饮店在不同消费水平的信息:将Quality Rating拖动到行标签,Meal Price 拖动到列标签,Restaurant拖动到数值框,修改Restaurant的显示方式为计数,在表格中列标签上右键点击选择分组,设置开始结束和step就可以得到:

R

引入包导入数据

library("openxlsx")
Stereo<- read.xlsx("Stereo.xlsx","Data")
Volume <- Stereo$Sales.Volume 

均值

mean(Volume)
[1] 51

中位数

median(Volume)
[1] 52

众数:R中没有直接求众数的,可是用table函数计算出每个值的频数,再用which.max取频数最大的。54,它是第6个值。

 which.max(table(Volume))
54 
 6 

四分位数

quantile(Volume)
   0%   25%   50%   75%  100% 
38.00 46.50 52.00 56.25 63.00 

标准差

 sd(Volume)
[1] 7.930252

方差

 var(Volume)
[1] 62.88889

标准分

scale(Volume)
            [,1]
 [1,] -0.1260994
 [2,]  0.7565964
 [3,] -1.2609941
 [4,]  0.3782982
 [5,]  0.3782982
 [6,] -1.6392923
 [7,]  1.5131929
 [8,] -0.3782982
 [9,]  1.0087952
[10,] -0.6304970

果然还是R计算的更精确,功能也更加强大。

相关文章

  • 2022-02-20

    2022.02.20 开学第一课之数学 扇形统计图: 1、统计图的概念是统计数字通过几何图形、事物形象和地图等绘制...

  • 统计第一课

    描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabula...

  • 商务统计第一课

  • 光荣在于平淡,艰巨在于漫长!

    01 9.18,开学第一课,我们跑到西校上数理统计。 9.19,第一节真正口语课,来自美国的Shamik老师,课后...

  • 统计学第一课

    1.统计学基本知识: 统计学:收集、处理、分析、解释数据并从中得出结论的科学。 2.二项及泊松分布 3.大数定理:...

  • 统计学第一课:统计基础与R入门

    学习数据分析有很多种方式,但是统计学是必须要掌握的一门学科。统计学研究各领域数据,是一套获取、分析、得出结论的一套...

  • 5.22计划

    1.上午书画院琐碎:考级背书,统计…… 2.下午新冠疫苗第二针。 3.晚上7点开启国画花鸟基础第一课。

  • 学习统计学第一课

    数据类型 类型:分类数据,顺序数据,数值型数据, 总体:包含所研究的全部个体的集合, 样本:从总体中抽取的一部分元...

  • 产品新人学统计学第一课 — 统计学入门

    统计学是数据分析的重要基础和核心工具,是数据分析师必须掌握的一门知识。统计,通过某种有意义的方式对原始信息或数字进...

  • 佩妮日精进20210227

    早起做了三件事,第一讲师训作业初步统计,第二PPT第一课听课做笔记,第三案例逐字稿手写。早起还是有点效率的。 然后...

网友评论

      本文标题:统计第一课

      本文链接:https://www.haomeiwen.com/subject/kyissxtx.html