数据与统计学

作者: EvanForEver | 来源:发表于2018-06-07 10:29 被阅读21次

统计学：收集、处理、分析、解释数据并从数据中得出结论的科学

统计学所提供的是是一系列有关数据收集、处理和分析的方法。

收集数据：取得数据
处理数据：图表展示
分析数据：利用统计方法分析数据
数据解释：结果的说明
得到结论：从数据分析中得出客观结论

数据分析

数据分析是利用统计方法对数据进行分析，数据分析所使用的方法大体分为两种：描述统计与推断统计(descriptive statistics & inferential statistics)

一、变量与数据

变量(variable)：描述所观察对象某种特征的概念，其的特点是从一次观察到下一次观察可能会出现不同结果

观察一个企业的销售额，这个月和上个月有所不同；观察股票市场上涨股票的家数，今天与昨天数量不一样；观察一个班学生的生活费支出，一个人和另一个人不一样；投掷一枚骰子观察其出现的点数，这次投掷的结果和下一次也不一样
“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量

数据(data)：变量的观测结果

二、变量分类

类别变量(categorical variable)
取值为事物属性或类别以及区间值的变量，也称分类变量(classified variable) 或 定性变量(qualitative variable)

比如，观察人的性别、公司所属的行业、用户对商品的评价时，得到的结果就不是数字，而是事物的属性此外，考虑学生月生活费支出的档次可能分为1000以下、1000—1500、1500—2000、2000以上4档，作为变量的“月生活费支出档次”这4档取值也不是普通的数值，而是数值区间，因而也称为区间值类别变量

类别变量根据取值是否有序分为两种
 名义(nominal)值类别变量也称无序类别变量，其取值是不可以排序的
 顺序(ordinal)值类别变量也称有序类别变量，其取值间可以排序
 当类别变量只取两个值时也称为二值(binary)类别变量，例如“性别”这一变量取值为男和女。二值变量可以看成名义变量，也可以看成有序变量
数值变量(metric variable)
取值为数字的变量，也称为定量变量(quantitative variable)

数值变量的观察结果称为数值数据(metric data)或定量数据

数值型变量根据其取值的不同，可以分为离散变量(discrete variable)和连续变量(continuous variable)。离散型变量是只能取有限个值是变量，而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量，它的取值是连续不断的，不能一一列举，当离散变量的取值很多时，也可以将离散变量当作连续变量来处理

三、数据的来源

寻找二手数据
抽取样本
总体(population)：包含所研究的全部个体(数据)的集合
样本(sample)：从总体中抽取的一部分元素的集合
样本量(sample size)：构成样本的元素的数目
概率抽样方法
例如简单随机抽样、分层抽样、系统抽样、整群抽样等。

四、概率抽样方法

概率抽样(probability sampling)：根据一个已知的概率来抽取样本单位，也称随机抽样
特点：
 按一定的概率以随机原则抽取样本
 抽取样本时使每个单位都有一定的机会被抽中
 每个单位被抽中的概率是已知的，或是可以计算出来的
 当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率
简单随机抽样(simple random sampling)
从总体N个单位(元素)中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会(概率)被抽中。抽取元素的具体方法有重复抽样和不重复抽样

特点
 简单、直观，在抽样框完整时，可直接从中抽取样本
 用样本统计量对目标量进行估计比较方便

局限性
 当N很大时，不易构造抽样框
 抽出的单位很分散，给实施调查增加了困难
 没有利用其他辅助信息以提高估计的效率

简单随机样本(simple random sample): 由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本

分层抽样(stratified sampling)：将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本
优点：
 保证样本的结构与总体的结构比较相近，从而提高估计的精度
 组织实施调查方便
 既可以对总体参数进行估计，也可以对各层的目标量进行估计
系统抽样(systematic sampling)
将总体中的所有单位(抽样单位)按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位
先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k…等单位
 优点：操作简便，可提高估计的精度
 缺点：对估计量方差的估计比较困难
整群抽样(cluster sampling)：将总体中若干个单位合并为组(群)，抽样时直接抽取群，然后对中选群中的所有单位全部实施调查
特点
 抽样时只需群的抽样框，可简化工作量
 调查的地点相对集中，节省调查费用，方便调查的实施
 缺点是估计的精度较差

网友评论

本文标题：数据与统计学

本文链接：https://www.haomeiwen.com/subject/whzisftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！