第二十三章 统计与数据科学
一、统计调査的方式
统计报表是自上而下地统一布置、自下而上地逐级提供基本统计数据的调査方式。
普査:
特点:一次性的或周期性的;规定统一的标准调査时间;准确,规范化程度较高;使用范围比较窄
经济普査每10年进行两次,分别在每逢年份的末尾数字为3、8的年份实施。人口普査逢“0”的年份进行,农业普査逢“6”的年份进行,均为每10年一次
抽样调査:根据样本调査结果来推断总体数量特征的一种非全面调査,具有经济性、时效性强、适应面广、准确性高的特点
重点调査
(1) 从所要调査的总体中选择一部分重点单位进行调査,属于非全面调査,调査结果不能推断总体
(2) 重点单位是指在所要调査的数量特征上占有较大比重的单位
典型调査
(1) 有意识地选择若干具有典型意义的或有代表性的单位进行的调査,属于非全面调査,调査结果不能推断总体
(2) 作用:弥补全面调査的不足,在一定条件下可以验证全面调査数据的真实性
二、数据科学与大数据
1、 大数据具有4V特性:数据量大、数据多样性(含结构化、非结构化、半结构化数据)、价值密度低、数据的产生和处理速度快。
2、 数据挖掘的含义:
(1)数据源必须是真实的、大量的、有噪声的;(2)发现的是用户感兴趣的知识(3)发现的知识是可接受、可理解、可运用的(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题
3、 数据挖掘常用的算法:分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析
4、 数据可视化包含科学可视化(面向科学与工程领域)和信息可视化(处理对象是非结构化、非几何的抽象数据)
离散程度的测度
方差:各数值与其均值离差平方的平均数。其单位是原数据单位的平方,没有解释意义。方差越小,均值的代表性越好。
标准差:即方差的平方根。用于测度数据的离散程度。
共同点:都只适用于数值型数据,具有比较好的数学性质。
离散系数(变异系数)
即标准差与均值的比值。主要用于不同类别数据离散程度的比较,消除了测度单位和观测值水平不同的影响,可以直接用来比较变量的离散程度。
分布形态的测度
偏态系数描述的是数据分布对称程度。取决于离差三次方的平均数与标准差三次方的比值。
(1) 系数为0:数据分布是对称的。
(2) 系数为正数:数据分布右偏。。〜0.5 (轻度),0.5〜1 (中度),大于1 (严重)。
(3) 系数为负数:数据分布左偏。0 0.5 (轻度),一0.5 1 (中度),小于一1 (严重)。
标准分数标准分数2=(给出的数值-均值):标准差
约有68%的数据与平均数的距离在1个标准差之内,标准分数在[-1, 1]约有95%的数据与平均数的距离在2个标准差之内,标准分数在[-2, 2],约有99%的标准分数在[-3,+3]。
变量间的相关分析
相关关系完全相关:一个变量的取值完全由另一个变量的取值变化来确定
不相关现象:两个变量的取值变化彼此互不影响
正相关:是指一个变量的取值随着另一个变量的取值增大而增大;相反为负相关。
相关关系并不等同于因果关系,也不等同于函数关系。
相关系数(Pearson)
-l<r<0:负线性相关0<r<l:正线性相关
r=-l:完全负线性相关r=0:无线性相关,不存在线性相关 r=l:完全正线性相关
|r|<0.3:无线性关系0.3<|r|<0.5:低度相关0.5<|r|<0.8:中度相关|r|N0.8:高度相关
网友评论