美文网首页
统计第一课

统计第一课

作者: 张伟松 | 来源:发表于2017-09-17 19:35 被阅读78次

    描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

    概念

    基本概念

    • 总体:特定研究中所有个体的总和
    • 样本:总体的子集
    • 样品的数据可以用于对总体的属性进行估计和假设检验
    • 截面数据:在相同或相近的时间点上收集到的数据
    • 时间序列数据:在几个时期内收集到的数据

    描述性统计量:

    • 平均数:数据总和除以总个数
    • 加权平均数: 数据和权重之和除以所有权重之和
    • 中位数:数据按照顺序排序,如果总个数是奇数,取最中间的;偶数为中间两数平均值
    • 众数:频数(出现次数)最多的,众数可能不止一个,多个众数没有意义。
    • 四分位数:上四分卫,中位数,下四分位

    描述数据离散程度的统计量:

    • 极差:最大值减最小值
    • 四分位数间距 :Q3-Q1
    • 方差:各个数与平均数之差的平方的平均数
    • 标准差:方差的正平方根
    • 标准差系数: 标准差除以平均数
    • Z分数:表示该数据项距离均值有多少个标准差

    两变量之间关系:

    • 协方差:



      协方差为正表示正相关,负为负相关,零表示无相关关系。

    • 相关系数:



      相关系数在-1和+1之间,最小为-1,表示完全负相关,以此类推。

    描述统计--思维导图

    练习

    Excel

    平均数:使用函数AVERAGE,例如stereo数据集中 Sales Volume字段表示每周的销售业绩,平均值为AVERAGE(C2:C11),结果是51。
    中位数MEDIAN(C2:C11)=52
    众数MODE(C2:C11)=54,MODE函数返回一组数据区域中出现频率最高的数。

    四分位数:Excel有QUARTILE函数,返回的是一组数据的四分位点,该函数有两个参数,第一个参数是数据范围,第二个参数是数值0到4,本别可以求出数据的最大值,上四分位,中位数,下四分位和最大值。
    所以上四分位是QUARTILE(C2:C11,1)=46.5,75%四分位数是QUARTILE(C2:C11,3)=56.25

    标准差和方差:标准差使用STDEV函数,方差只需对其平方。
    Z分数:计算标准分Z分数,根据公式


    要求一个数的标准分,用该数减去平均分,再除以标准差,公式为(C2-AVERAGE($C$2:$C$11))/STDEV($C$2:$C$11),复制到其他数值。
    Excel数据透视表/图

    Excel中的数据透视表可做数据汇总,生成易于理解的表和图展示数据。
    restaurant数据集包含300家餐饮店的消费信息,我在E1位置插入=》数据透视表=》选择范围$A$1:$C$301=》确定。如下图


    上方包含所有可选的字段,我们可以吧这些字段任意拖动到新的透视表中——作为行标签或者列标签或者数据内容。
    比如要查看不同Quality Rating的餐饮店在不同消费水平的信息:将Quality Rating拖动到行标签,Meal Price 拖动到列标签,Restaurant拖动到数值框,修改Restaurant的显示方式为计数,在表格中列标签上右键点击选择分组,设置开始结束和step就可以得到:

    R

    引入包导入数据

    library("openxlsx")
    Stereo<- read.xlsx("Stereo.xlsx","Data")
    Volume <- Stereo$Sales.Volume 
    

    均值

    mean(Volume)
    [1] 51
    

    中位数

    median(Volume)
    [1] 52
    

    众数:R中没有直接求众数的,可是用table函数计算出每个值的频数,再用which.max取频数最大的。54,它是第6个值。

     which.max(table(Volume))
    54 
     6 
    

    四分位数

    quantile(Volume)
       0%   25%   50%   75%  100% 
    38.00 46.50 52.00 56.25 63.00 
    

    标准差

     sd(Volume)
    [1] 7.930252
    

    方差

     var(Volume)
    [1] 62.88889
    

    标准分

    scale(Volume)
                [,1]
     [1,] -0.1260994
     [2,]  0.7565964
     [3,] -1.2609941
     [4,]  0.3782982
     [5,]  0.3782982
     [6,] -1.6392923
     [7,]  1.5131929
     [8,] -0.3782982
     [9,]  1.0087952
    [10,] -0.6304970
    

    果然还是R计算的更精确,功能也更加强大。

    相关文章

      网友评论

          本文标题:统计第一课

          本文链接:https://www.haomeiwen.com/subject/kyissxtx.html