美文网首页
数据与统计学

数据与统计学

作者: EvanForEver | 来源:发表于2018-06-07 10:29 被阅读21次

    统计学:收集、处理、分析、解释数据并从数据中得出结论的科学

    统计学所提供的是是一系列有关数据收集、处理和分析的方法。

    收集数据:取得数据
    处理数据:图表展示
    分析数据:利用统计方法分析数据
    数据解释:结果的说明
    得到结论:从数据分析中得出客观结论

    数据分析

    数据分析是利用统计方法对数据进行分析,数据分析所使用的方法大体分为两种:描述统计与推断统计(descriptive statistics & inferential statistics)

    一、变量与数据

    • 变量(variable):描述所观察对象某种特征的概念,其的特点是从一次观察到下一次观察可能会出现不同结果

    观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样
    “企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量

    • 数据(data):变量的观测结果

    二、变量分类

    1. 类别变量(categorical variable)
      取值为事物属性或类别以及区间值的变量,也称分类变量(classified variable)定性变量(qualitative variable)

      比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是事物的属性此外,考虑学生月生活费支出的档次可能分为1000以下、1000—1500、1500—2000、2000以上4档,作为变量的“月生活费支出档次”这4档取值也不是普通的数值,而是数值区间,因而也称为区间值类别变量

      类别变量根据取值是否有序分为两种
       名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的
       顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序
       当类别变量只取两个值时也称为二值(binary)类别变量,例如“性别”这一变量取值为男和女。二值变量可以看成名义变量,也可以看成有序变量

    2. 数值变量(metric variable)
      取值为数字的变量,也称为定量变量(quantitative variable)

      数值变量的观察结果称为数值数据(metric data)或定量数据

      数值型变量根据其取值的不同,可以分为离散变量(discrete variable)连续变量(continuous variable)。离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,当离散变量的取值很多时,也可以将离散变量当作连续变量来处理

    三、数据的来源

    • 寻找二手数据
    • 抽取样本
      总体(population):包含所研究的全部个体(数据)的集合
      样本(sample):从总体中抽取的一部分元素的集合
      样本量(sample size):构成样本的元素的数目
    • 概率抽样方法
      例如简单随机抽样、分层抽样、系统抽样、整群抽样等。

    四、概率抽样方法

    1. 概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样
      特点:
       按一定的概率以随机原则抽取样本
       抽取样本时使每个单位都有一定的机会被抽中
       每个单位被抽中的概率是已知的,或是可以计算出来的
       当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

    2. 简单随机抽样(simple random sampling)
      从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 。抽取元素的具体方法有重复抽样和不重复抽样

      特点
       简单、直观,在抽样框完整时,可直接从中抽取样本
       用样本统计量对目标量进行估计比较方便

      局限性
       当N很大时,不易构造抽样框
       抽出的单位很分散,给实施调查增加了困难
       没有利用其他辅助信息以提高估计的效率

    简单随机样本(simple random sample): 由简单随机抽样形成的样本
    从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本

    1. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
      优点:
       保证样本的结构与总体的结构比较相近,从而提高估计的精度
       组织实施调查方便
       既可以对总体参数进行估计,也可以对各层的目标量进行估计

    2. 系统抽样(systematic sampling)
      将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
      先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
       优点:操作简便,可提高估计的精度
       缺点:对估计量方差的估计比较困难

    3. 整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
      特点
       抽样时只需群的抽样框,可简化工作量
       调查的地点相对集中,节省调查费用,方便调查的实施
       缺点是估计的精度较差

    相关文章

      网友评论

          本文标题:数据与统计学

          本文链接:https://www.haomeiwen.com/subject/whzisftx.html